您的位置:网站首页 > 相关知识 > 正文

谈谈我们都爱用的相关系数

类别:相关知识 日期:2019-11-16 5:35:07 人气: 来源:

  矢野浩二老婆傅晶当师兄和老师就应该选取哪一个相关系数讨论时,我发现我插不上话。这对于具有话痨体质的我,怎么能忍?为了能在组会上多喷几句,我写下了这篇文章……

  会一点点也算会,不要扣这些小细节了。(ps:那些自称只会一点点,但是球场猛如虎的朋友真的让我很啊……)

  有序变量/序数变量(Ordinal variables):我也不知道这个变量类型怎么翻译更合适。这个变量和名义变量类似,只是这个变量的类别可以进行排序。举个例子帮助理解吧,问身边的小伙伴你会打篮球么?他们回答:“会一点”,“还行”,“会”,“当然会”。

  区间变量:这种变量的一个特点就是可以连续测量,比如温度,长度,质量……这些变量都是可以连续变化的

  比率变量:该变量也是一种区间变量,但是具有绝对零点,可以表示不存在该变量。如我们常说的温度,有华氏温度和开尔文温度。华氏温度的0℃仍然是有温度的,并不表示不存在温度,因此它只是区间变量。而开尔文温度,有一个绝对零度的概念,这个绝对零度表示的是此处没有温度,因此开尔文温度是比率变量

  相关系数一词经常被,深深困扰着我。只学过浙大统计学教材的我,一直以为相关系数是下面这玩意

  后来随着相关性系数的不断应用,我发现怎么还有pearson相关系数,spearman相关性系数……搞科研嘛~,就要严谨认真,于是我就把这些系数的关系好好捋了一遍。

  r的值可以取[-1,1]之间,如果r为0,则表示这两个变量之间不存在线性相关。如果r为正数,则表示正相关(即:一个值增大,另一个值跟着增大)。而r为负数,则表示负相关。下面是一个例子:

  两个变量之间的线性关系越强,则r的取值越接近1或者-1。当r=±1时,这表示,所有的点都位于拟合的直线上,没有偏离。而r越接近于0,则数据点越偏离拟合线。如下面两图:

  这里需要提一嘴,我们在线性回归分析中,经常使用(决定系数)作为评价拟合好坏的指标,而这个恰好就等于r的平方。但是,作为一个评价拟合好坏的指标,它不仅可以评估线性拟合,也可以评估非线性拟合。即使是线性的也不一定要用最小二乘法进行拟合。因此准确的来说应该是:在带有截距项的线性最小二乘多元回归中,等于实测值y和拟合值fd的相关系数r的平方。(一定要注意前面这一大堆的条件啊……)

  在使用皮尔逊相关系数分析数据的相关性时,既可以使用区间变量也可以使用比率变量(忘记的同学,记得回头看看前面讲的),甚至一个变量是区间变量,另一个变量是比率变量也是可以的。两个变量的单位也不需要保持一致,比如我想知道身高与体重的相关性。虽然这俩变量单位不同,但是依然可以进行相关性分析。

  如果你还记得的皮尔逊相关系数的公式的话,你会发现,谁是自变量谁是因变量,对于最终的相关系数的取值没有影响。

  知道了皮尔逊相关系数,你会发现它具有局限性,那就是只能分析线性相关的相关系数。那么非线性的怎么办?我们有Spearman相关系数来帮忙

  The Spearmans rank-order correlation度量的是两个有序变量关联的方向和强度,通常记作ρ或者(取值范围也是[-1,1])。因为度量的是有序变量,因此我们度量的变量类型就只能是有序变量,区间变量或者比率变量。

  Spearman相关系数度量的是两个变量之间的单调关系,就是“你增我也增或者你增我就减”的关系。因此如果两个变量之间的关系不是单调的,就触碰到了Spearnman相关系数的盲区了(ps:其实是我的盲区,但我怎么可能承认?)下面的图,可以进一步帮助理解:

  这并不是说非单调的数据,我们不可以使用Spearman相关性系数进行分析,正相反,我们可以利用这一系数来判断两个变量之间的关系是否具有单调性。

  有的同学会问,这个系数怎么计算呢?凭啥Pearson有Spearman没有,瞧不起谁呢?为了公平起见,Spearman也必须拥有姓名:

  当我们对数据进行相关性分析时,我们可以使用散点图对数据进行评估。如果是线性的我们就用Pearson相关系数,如果线性但单调我们就使用Spearman相关系数。有时候检查单调性比较费时,我们直接利用Spearman相关系数计算一下相关性即可。

  如果你还记得协方差和相关系数之间的关系,可以看一下这里。当两个变量时,协方差等于0,不时不等于0。既然这样,那为什么不使用协方差判断两个变量间的相关性呢?这是因为协方差缺乏一个度量标准,它的取值并不受限,不像那俩一样范围在[-1,1]。因此无法判断,究竟什么值算是相关性较好,什么值属于相关性较差。

  原文 简介:什么是相关性以及它为何有用? 相关性是使用最广泛的一个-和 广泛的- 统计概念。在本概述中,我们...

  皮尔森相关系数 在所有相关系数的计算方法里面,最常见的就是皮尔森相关。皮尔森相关系数也称皮尔森积差相关系数,是一种...

  Zhou Y, Isabel Vales M, Wang A, et al. Systematic bias of...

  特征选择 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们...

  

关键词:相关指数
0
0
0
0
0
0
0
0
下一篇:没有资料

网友评论 ()条 查看

姓名: 验证码: 看不清楚,换一个

推荐文章更多

热门图文更多

最新文章更多

关于联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 人才招聘 - 帮助

CopyRight 2002-2016 锅炉设备网 技术支持 FXT All Rights Reserved