什么是变异系数
统计描述在医学统计的地位是首当其冲的,大家学习医学统计学的时候,最开始要回答的问题可能就是“选择合适的统计学指标对资料进行统计描述”。跟大家复习一下:常见的描述集中趋势的指标有算术均数、中位数、众数、几何均数等,而在描述离散趋势的统计指标中,除了极差(range, r)、四分位数间距(quartile range, q)、方差(variance)、标准差(standard deviation)以外,想必大家一定会记得有那么一个指标,可以用于量纲不同的变量间或均数差别较大的变量间,变异程度的比较吧?
没错,这个指标正是变异系数(coefficient of variation, cv)!当然不是这个cv了(curriculum vitae, 简历)
在介绍本文之前,先介绍一个变异系数不常用的应用,它可以用于计算线性模型的拟合程度,即均方根误差除以因变量的均数,得到的变异系数越小,表示残差越小,模型的拟合程度就越好。可以用于比较同一因变量下自变量不同的模型。比如一个因变量y=52.645,拟合的线性回归方程的均方根误差rsme=7.8778,那么这个模型的cv为7.8778 / 52.645 * 100 = 14.964052。
为了增加上一段话的可信度,引用一段英文,“the cv for a model aims to describe the model fit in terms of the relative sizes of the squared residuals and outcome values. the lower the cv, the smaller the residuals relative to the predicted value. this is suggestive of a good model fit. ”
看到这里,是不是觉得cv顿时又强大了?其实它还有很多前提条件和缺点。大家都知道变异系数的计算公式为cv = s / mean,单从理论上看,如果分母mean均数为0,它就计算不了。该怎么办?
另外,如有两个cv比较,其中一个的mean是负数,从而得到负的cv,又该如何比较?看绝对值好像又是错的。该怎么办?
有句话说得好,不能惯着它!算不了就别算了呗。所以使用变异系数是有前提条件的,正如正态性对于参数检验一样,不满足就算不得。而变异系数的前提条件是只适用于仅含正数的连续型变量。
为了增加可信度,再引用一段英文,“the most obvious problem arises when the mean of a variable is zero. in this case, the cv cannot be calculated. even if the mean of a variable is not zero, but the variable contains both positive and negative values and the mean is close to zero, then the cv can be misleading. the cv of a variable or the cv of a prediction model for a variable can be considered as a reasonable measure if the variable contains only positive values. this is a definite disadvantage of cvs. ”
当然,如果两组数据都是同正或同负的,我们尚可以对两组数据取绝对值之后,计算cv,从而比较变异程度。
所以,变异系数cv,不能随便用!anyway,还记得上面讲了什么吗?
参考文献:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/coefficient_of_variation.htm
长按识别关注亚博安卓下载