机器学习中的PCA主成分分析

PCA

Posted by Mark on July 19, 2018

PCA主成分分析法

实践

其实主成分分析法的实现方法非常明了,一步步的来就可以。但是想了解的更加透彻,知道为什么这样做是可以的,或许需要一步步的推导公式开始,先说实现方法。

数据

假设我们得到的2维数据如下:

第一步

分别求x和y的平均值,然后对于所有的样例,都减去对应的均值。这里x的均值是1.81,y的均值是1.91,那么一个样例减去均值后即为(0.69,0.49),得到

第二步

求特征协方差矩阵

对角线上分别是x和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。

第三步

求协方差的特征值和特征向量

第四步

将特征值按照从大到小的顺序排序,我们选择其中最大的那个,这里是1.28402771,对应的特征向量是

第五步

将样本点投影到选取的特征向量上。

结束

对比

PCA之前:

PCA之后

其实PCA的本质就是减少坐标轴、旋转坐标轴,使得减少坐标轴之后、旋转坐标轴之后的数据特征的离散程度,尽可能的损失的少,尽可能的代表原来的数据的特征。

公式推导

放在前面

作为一些知识科普

开始推导

写在后面

引用

1.主成分分析法详解

2.【机器学习】主成分分析详解