Machine Learning

Naive的贝叶斯说红楼梦后40回不是曹雪芹写的

最近刚刚开始看《机器学习实战》,有讲到用朴素贝叶斯方法分辨普通邮件和垃圾邮件。 朴素贝叶斯算法的理论基础来自于贝叶斯公式: 知道B条件下A发生的概率、B发生的概率、A发生的概率,就可以求出A条件下是B的概率。 以分辨垃圾邮件为例,知道垃圾邮件中出现垃圾词的概率p(A|B),收到垃圾邮件的概率p(B),收到的邮件中有垃圾词的概率p(A),就可以求出收到的有垃圾词的邮件属于垃圾邮件的概率p(B|A)。 不得不说原来我大二学的概率论还有点用。 准备数据:从文本中构建词向量。我手头正好有刘慈欣、韩松、马伯庸、迟卉的中短篇小说集,利用jieba模块分词处理后创建词向量。 测试算法:按理说结果应该分成 True positive/ False Postive/

Machine Learning

人脸检测的Viola-Jones方法

对于人脸识别这种类型的应用来说,通常都会分为几个步骤: 人脸检测(Face Detection)。检测到人脸所在的区域。并进行一系列的矫正。 人脸校准(Face Alignment)。人脸校准指的是在图片中寻找到鼻子、眼睛、嘴巴之类的位置。 如图中,红色的框是在进行检测,白色的点是在进行校准。 信息识别(Info Recognition)。进行性别、年龄等信息的分析和识别。 这三个问题可以说每一个都是一个非常广泛的研究领域,有很多值得做的工作。本文只做一些简单的介绍。 人脸检测 Viola-Jones方法 传统的人脸检测算法是Viola-Jones算法。在OpenCV中的人脸检测功能也是使用的这种算法。它有三个核心步骤:Haar-like特征、Adaboost分类器和Cascade级联分类器。 Haar-like特征 所谓Haar-like特征其实很好理解。