相关系数矩阵及协方差矩阵

已有人阅读此文 - - admin

相关系数矩阵及协方差矩阵知识,相关系数矩阵及协方差矩阵图片 相关系数矩阵及协方差矩阵内容,相关系数矩阵及协方差矩阵介绍,相关系数矩阵及协方差矩阵,相关,系数,矩阵,及,协,方差,相关,系数,因,的正文:

相关系数矩阵及协方差矩阵包含:相关系数矩阵及协方差矩阵介绍的方法与命令流程等可以帮助到读者。

相关系数矩阵及协方差矩阵例图

相关系数因为是两两相关 所以只有对角矩阵 对角线是变量和自身的相关系数(永远=1)
相关系数矩阵是计算一组随机变量相互之间的相关系数, 当然每个随机变量都会有一组样本数据

然后每个格子里有三行 最上面的有星号的是线性相关系数 第二个是相关系数的P值(表示显著与否,与第一个数字上的星星数作用类似,星号越多越显著对应的P值也越小)第三个是样本数

通常线性系数大于0.7说明线性相关度比较高(越接近1越相关,符号为负表示负相关)
矩阵

变量说明:

设为一组随机变量,这些随机变量构成随机向量 ,每一个随机变量有m个样本,则有样本矩阵

当中 相应着每一个随机向量X的样本向量,相应着第i个随机单变量的全部样本值构成的向量。

单随机变量间的协方差:

随机变量 之间的协方差能够表示为

依据已知的样本值能够得到协方差的预计值例如以下:

能够进一步地简化为:

协方差矩阵: 

当中 ,从而得到了协方差矩阵表达式。

假设全部样本的均值为一个零向量,则式能够表达成:

补充说明:

1、协方差矩阵中的每个元素是表示的随机向量X的不同分量之间的协方差,而不是不相同本之间的协方差,如元素Cij就是反映的随机变量Xi, Xj的协方差。

2、协 方差是反映的变量之间的二阶统计特性,假设随机向量的不同分量之间的相关性非常小,则所得的协方差矩阵差点儿是一个对角矩阵。对于一些特殊的应用场合,为了使 随机向量的长度较小,能够採用主成分分析的方法,使变换之后的变量的协方差矩阵全然是一个对角矩阵,之后就能够舍弃一些能量较小的分量了(对角线上的元素 反映的是方差,也就是交流能量)。特别是在模式识别领域,当模式向量的维数过高时会影响识别系统的泛化性能,常常须要做这种处理。

3、必须注意的是,这里所得到的式(5)和式(6)给出的仅仅是随机向量协方差矩阵真实值的一个预计(即由所測的样本的值来表示的,随着样本取值的不同会发生变化),故而所得的协方差矩阵是依赖于採样样本的,而且样本的数目越多,样本在整体中的覆盖面越广,则所得的协方差矩阵越可靠。

4、如同协方差和相关系数的关系一样,我们有时为了可以更直观地知道随机向量的不同分量之间的相关性到底有多大,还会引入相关系数矩阵。

在概率论和统计学中,相关或称相关系数或关联系数,显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有很多依据数据特点而定义的用来衡量数据相关的系数。

对于不同数据特点,能够使用不同的系数。最经常使用的是皮尔逊积差相关系数。其定义是两个变量协方差除以两个变量的标准差(方差)。

皮尔逊积差系数

数学特征

/rho_{X,Y}={/mathrm{cov}(X,Y) /over /sigma_X /sigma_Y} ={E((X-/mu_X)(Y-/mu_Y)) /over /sigma_X/sigma_Y},

当中,E是数学期望,cov表示协方差。

由于μX = E(X),σX2 = E(X2) − E2(X),相同地,对于Y,能够写成

/rho_{X,Y}=/frac{E(XY)-E(X)E(Y)}{/sqrt{E(X^2)-E^2(X)}~/sqrt{E(Y^2)-E^2(Y)}}.

当两个变量的标准差都 不为零,相关系数才有定义。从柯西—施瓦茨不等式可知,相关系数不超过1. 当两个变量的线性关系增强时,相关系数趋于1或-1。当一个变量添加而还有一变量也添加时,相关系数大于0。当一个变量的添加而还有一变量降低时,相关系数小 于0。当两个变量独立时,相关系数为0.但反之并不成立。 这是由于相关系数只反映了两个变量之间是否线性相关。比方说,X是区间[-1,1]上的一个均匀分布的随机变量。Y = X2. 那么Y是全然由X确定。因此Y 和X是不独立的。可是相关系数为0。或者说他们是不相关的。当Y 和X服从联合正态分布时,其相互独立和不相关是等价的。

当一个或两个变量带有測量误差时,他们的相关性就受到削弱,这时,“反衰减”性(disattenuation)是一个更准确的系数。

现在我们知道了该如何去求协方差矩阵,但是我们还没有深究协方差矩阵到底有什么用。我们通过几个具体的例子来看一下。

我们在概率的讨论中知道,当X和Y是线性相关的时候,协方差和各自的方差会满足一个关系,也就是这个相关系数是1:

也就是说,当X和Y是线性相关的时候,协方差矩阵
相关系数协方差矩阵的数学特征图

会满足这个关系:主对角线上的两个元素的乘积,等于副对角线元素的平方。

我们来通过一个例子感受一下:假如Y=2X,我们取两个点1,2和-1,-2,我们可以求出数据矩阵(已经令平均值是0)D和协方差矩阵C:

我们对协方差矩阵C来进行特征值分解:

为了看得清楚一点,我没有做归一化的处理(否则一堆根号,而我们主要关注的是特征向量的方向)可见,特征值较大的2.5对应的特征向量(1,2)T,就是我们在做PCA的时候需要的投影仪后距离最大的方向,而特征值较小的方向,就是我们最不喜欢的方向。

再来看一个例子,比如说我们的几个点是这样分布的:

这四个点完全没有线性关系,我们也看到,协方差矩阵的副对角线上的元素都是0,相关系数也是0。这个数据集是找不到什么最佳投影方向的(因为完全对称)。我们从矩阵的特征值分解中也能看到端倪,协方差矩阵是一个单位矩阵,它的特征值只有1,特征向量是全部的特征向量(所有的向量都没有改变方向),因此这套数据不论怎么投影,最后的结果都是一样的。
相关系数矩阵图

因此我们可以感性的得出一个结论,对于已经去掉平均值影响的数据集来说,如果我们将它排成一个矩阵D,那么这个矩阵和自己的转置的乘积就能直接得到自身的协方差矩阵C=1/nDDT。协方差矩阵中,最大的特征值对应的特征向量的方向,就是我们要找的PCA投影的方向。这是一个二维的结论,如果是高维的数据的PCA降维,你要降到几维,就找协方差矩阵中最大的几个特征值对应的特征向量的方向。

为什么协方差矩阵的特征值会有这样的性质,我也一直在找严格的证明,但是目前还没有找到特别好的,不过这个结论是不难记而且可以感性理解的。

 

1相关系数矩阵及协方差矩阵系部分转载自网络,如有对程序员或作者侵犯,请联系我们立即删除,另:本文仅代表作者个人观点,与本网站无关。

2相关系数矩阵及协方差矩阵这篇文章的原创性以及文中对于编程运维专业度的陈述文字 和内容未经本站证实,对本文以及其中全部或者部分内容及图片的有效性、文字的真实性、完整性、及时性本站不作任何保证或承诺以及推荐,本站非盈利,有对图片文字不适的请程序员及读者仅作参考并自行核实相关内容

3这篇相关系数矩阵及协方差矩阵的文章,涉及的相关,系数,矩阵,及,协,方差,相关,系数,因,命令,变量,函数,代码,类,库等皆是代称