2016年4月 – Fawdlstty个人小站

C++机器学习（3）朴素贝叶斯

部分资料下载地址： http://pan.baidu.com/s/1bpsgt5t 提取码fwxf
源码下载地址：https://github.com/fawdlstty/hm_ML

朴素贝叶斯这东西呢，主要用于文本相关处理，比如通过邮件内容判断是否是垃圾邮件等等。
具体实现思路是：比如判断某个邮件的内容是否是垃圾邮件，那么弄两个文本向量，分别代表正常邮件的关键字与垃圾邮件关键字，然后计算哪边关键字出现的多就按次数多的定义。比如正常邮件关键字有3个，垃圾邮件关键字有20个，那么这邮件是垃圾邮件的概率大于这是正常邮件的概率，那就定义这邮件为垃圾邮件。
这个对于英文来说非常容易实现，但对于中文来说就不是那么回事了，因为中华汉字博大精深嘛，关键字非常不好找，算法的学习也是一件非常耗时的工作。所以这儿呢，我就简单实现一个类似的东西吧，我将实现，判断一句话的情感状态。
首先是分词，我选择friso；然后是情感词库，我找的一个网上的情感词汇本体库。这些东西在上面的源代码下载里面已经包括了。
继续阅读C++机器学习（3）朴素贝叶斯

C++机器学习（2）决策树

部分资料下载地址： http://pan.baidu.com/s/1bpsgt5t 提取码fwxf
源码下载地址：https://github.com/fawdlstty/hm_ML

M$大大前段时间弄了个小冰读心术，大概意思是通过15个问题，回答是、否、不知道，小冰就可以猜出你想的是什么人物。连接在这微软小冰·读心术
这种逻辑非常像二叉决策树，通过递归（高手也可以用迭代）判断特征，最终确定目标类型。每次判断的分支有两种类型，一种是二叉决策树，一种是多叉决策树，它们之间并没有绝对的优劣之差，各自有各自的优点。
示例决策如下图所示：
20160422211450
上图只是一个比较精简的决策的示例，可见决策树从速度上效率比之前的k-近邻算法强很多。实际上决策树也就是k-近邻算法的优化版，在损失一定精度情况下，可以使判断速度减少一个数量级。
继续阅读C++机器学习（2）决策树

C++机器学习（1）k-近邻算法

Warning: WP_Syntax::substituteToken(): Argument #1 ($match) must be passed by reference, value given in /www/wwwroot/fawdlstty.com/wp-content/plugins/wp-syntax/wp-syntax.php on line 383

Warning: WP_Syntax::substituteToken(): Argument #1 ($match) must be passed by reference, value given in /www/wwwroot/fawdlstty.com/wp-content/plugins/wp-syntax/wp-syntax.php on line 383

部分资料下载地址： http://pan.baidu.com/s/1bpsgt5t 提取码fwxf
源码下载地址：https://github.com/fawdlstty/hm_ML

又是一个神秘的领域，对于C++程序猿来说，机器学习就像小白对C++一样。什么手写识别，什么自动驾驶，对于C++程序猿来说，几乎是不可能的实现。但如果了解原理之后，机器学习也就这么回事。这篇文章简要介绍机器学习以及用C++实现一个简单的机器学习算法——k-近邻算法。
首先说一下变种病毒。变种病毒的核心实现是动态随机修改指令，用于绕过几乎所有的特征码杀毒引擎，实现上并不是病毒自身会进化，而是仅仅修改了实现方式。从汇编角度上来说，比如以下代码：

1	mov eax, 10h

以上代码的含义是，将16这个立即数放在eax寄存器里面。变种核心模块将以上代码替换为如下形式

push ebx
mov ebx, 12h
sub ebx, 2h
mov eax, ebx
pop ebx

以上代码的实现效果与上面那一行代码完全相同。如果之前的代码是杀毒引擎标记的特征的话，那么变种病毒经过这次变种后，杀毒引擎就找不到特征了，于是实现了过杀毒引擎的效果。虽然变种病毒听起来很恐怖，但实际上病毒所实现的效果并不会改变，也就是说，以前没有的功能，病毒并不会在自我升级中产生。
继续阅读C++机器学习（1）k-近邻算法

C++11：std::bind实现参数动态绑定

参数动态绑定在实际编程中用的不多，但在特定情况下非常有用。这个功能的意思是，将函数与参数绑定，下次调用时可以不用再次麻烦的传递参数。首先给出一个示例：

#include <iostream>
#include <string>
#include <functional>
using namespace std;
 
void func (int i, int j) {
    cout < < "i = " << i << ", j = " << j << endl;
}
 
int main(int argc, char* argv[]) {
    function<void (int, int)> f = func;
    f (1, 2);
    return 0;
}</functional></string></iostream>

结果为i = 1, j = 2
以上例子是使用函数对象保存函数地址，然后调用函数对象的示例代码，下面我让函数对象f与参数进行绑定：

#include <iostream>
#include <string>
#include <functional>
using namespace std;
 
void func (int i, int j) {
    cout < < "i = " << i << ", j = " << j << endl;
}
 
int main(int argc, char* argv[]) {
    function<void ()> f = bind(func, 1, 2);
    f ();
    return 0;
}</functional></string></iostream>

结果为i = 1, j = 2
由于已经绑定了参数1和2，所以在实际调用时不用再次赋值。注意函数对象的声明。
继续阅读C++11：std::bind实现参数动态绑定

C++实现高效字符串查找算法

最近想到一个关于高效字符串查找算法的设想，然后果断实现之，算法基于哈希表，用于源字符串特别长的情况，查找的子字符串越长、越没规律，那么速度越快。可能已经有人做过，不过我撸代码前还没听说过类似算法，算是一种轮子吧。
基本实现的思路是：首先建立一个hash_map，然后将子字符串所有字符及位置录入字符串中，如下图所示：
20160401212342
对于需要查找的字符串（比如在很长的字符串文本中查找“abcdefga”这一串字符），构建如上所示哈希表，键值名为子字符串出现的字符，值为出现的位置。
构建好之后呢，就好玩了，我只说说正向查找原理，逆向查找类似。首先，来一个假设，我就假设源字符串为“abababcdefgaaaaa”这样吧，第一次，取源字符串中，（子字符串长度-1）这个位置的字符，值为d，然后取哈希表的值，为3，那么，将源字符串中7-3的位置开始，与子字符串相比较，比较结果较满意，第一次就查找成功，那么直接返回7-3=4。
继续阅读C++实现高效字符串查找算法