数据可视化:统计量(2)
数据可视化一直是一个有用却用常常被忽视的数据分析方法,本系列借助 gnuplot 或 Python 包介绍常见的图例展示方法。数据可视化:统计量(2)
文章来自微信公众号“科文路”,欢迎关注、互动。转载须注明出处。
我们将从一些统计学相关的概念起步,以确保各位读者在基础知识方面有一个合格的起点。道理其实很简单——之所以使用“数据可视化”,那必然是因为从原始数据上很难发现差异或者规律,但我们至少要能知道如何在原始数据上进行研究。
所以,我们从“统计量”(statistic)起步。
插一句,英文的 statistic 这个术语有点拗口,它既可以表示用来计算统计量的函数,例如 do a statistic on something;也可以表示计算的结果,也就是这里的统计量。
1. 统计量
统计量或抽样统计量是出于统计目的而根据样本中的值计算出得出的值。
这里说的统计目的包括:
- 估计总体参数
- 假设检验
1.1. 估计总体参数
当统计量用于估计总体参数时,该统计量称为估计量。这种参数表征了总体的某种特性,但无法直接测量,而需要经过某种基于抽样的计算。
例如,样本均值是总体均值的无偏估计量。
注意,总体 vs 抽样
1.2. 假设检验
统计假设检验(statistical hypothesis test)是一种统计推断(statistical inference)方法,用于确定数据是否充分支持某特定的假设。
这是检验统计量常见的使用场景,一些有名的此类统计量包括 $t$-统计量($t$-检验)、$\chi^2$-统计量($\chi^2$-检验)。
通过将检验统计量与临界值进行比较,或者等效地通过评估从检验统计量计算出的 p 值($p$-value)来做出最终决策。
2. 常用统计量
下面是一些常见的样本统计量,有些常用的会在后续的章节中介绍,
- 均值、中位数、众数
- 方差、标准差
- 分位数
- 检验统计量,如 $Z$、$t$、$\chi^2$
- 顺序统计量,如最大值、最小值
- 矩及其函数,如峰度、偏度
- 经验分布函数
参考资料
😂完完完,讲起统计来,感觉半天回不去数据可视化的主题了,但这一部分又非常重要。比如,如果连分位数是啥都不知道,我来说这个 boxplot 的优点怕是空中楼阁了。
~~
都看到这儿了,不如关注每日推送的“科文路”、互动起来~
至少点个赞再走吧~
数据可视化:统计量(2)