Kissingwolf's Blog

深入浅出学统计-笔记

随机抽样

随机样本的关键特性是:它作为其来源的总体没有系统性的差别

样本是关于特定变量的一个独立观测值集合。当样本随机采集的观测值组成,且其中每个观测值与其他观测值相互独立时,我们称其为随机样本

简单随机样本

一个大小为n的简单随机样本(SRS)是n个观测值的集合,且抽取方法满足:所有可能从总体抽取的,包含n个观测值的样本都有相等的机会被抽到

不论是否选择随机抽样技术,都必须确保所得到的样本是总体的代表。否则,随后的一切工作都毫无意义。

样本大小(n)

样本大小即单一样本中的测量值的总数。

一般来说,n越大,我们对统计结论的信心越大,但是样本必须随机的。

样本平均数

样本平均数的计算公式,将样本中的所有数值都加起来,然后除以样大小。
$$
\overline{x}=\frac{x_{1}+x_{2}…x_{n}}{n}
$$

中位数是一个样本的“中间值”,更适合于在存在偏斜的情况下使用;通过去掉一本分最大值最小值可以算出去尾平均数,在样本存在极致的情况下啊,这种平均数更适合。

标准差(s)

计算标准差的目的是为了了解与平均值的平均距离。

  • 计算每个测量值与样本平均值之间的距离,我们将这个距离称为偏差
  • 求出每个偏差的平方根
  • 将说有偏差的平方根加起来
  • 将说有得到的总数和除以n-1(此处得到结果称之为方差)
  • 求以上结果的平方根

$$
S=\sqrt{\frac{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}+…(x_{n}-\overline{x})^{2}}{n-1}}
$$

分布

分布描述了一个随机变量的所有可能数值的位置情况。

如果你用一个总体中的某个变量的所有数值画一张直方图,就会看到该变量的总体分布

通过分布可以计算特定区域中的随机抽取值的概率(即长期可能性)

样本统计值与总体参数

统计的目的是利用样本对总体进行猜测。

“X拔”特指样本平均数
$$
\overline{X}
$$
“S”特指样本标准差
$$
S
$$
“缪”特指总体平均数
$$
\mu
$$
“西格玛”特指总体标准差
$$
\sigma
$$
统计值是我们实际测量的数值,因此是确凿无疑的数值。

参数是我们想知道的数值,但只能通过猜测获得。

正态分布

正态分布代表了平均数的聚集趋势

我们可以把正态分布分割为不同的区间,用这些区间描述其中的数值的概率。

抽样分布

一个抽样分布就是一个样本统计量的分布

中心极限定理(CLT)

当样本大小N很大时,“X拔”的抽样分布接近正态

N >= 30时此定理成立,所以我们一般认为样本数大于30时为“大样本”。

概率

概率是0-1之间的一个数,它对随机事件的发生可能性进行量化,从长期看,概率越接近1,事件越课程发生。

概率仅仅针对于长期性。

任何概率分布中的总面积都等于1 。

概率数学

微积分技术正是用来计算任何分布内的面积。

正态分布的概率函数:
$$
f_{\mu ,\sigma }(x)=\frac{1}{\sigma \sqrt{2\pi }}\exp{-\frac{1}{2\sigma ^{2}} (x-\mu )^{2}}
$$

置信区间

置信区间是与特定置信水平有关的一类区间估计。

计算总体平均数的95%置信区间的公式:
$$
\overline{x}\pm 2(\frac{S}{\sqrt{n}})
$$
通过改变截尾值来改变置信水平,比如1.3作为截尾值可以确定80%的置信区间。

假设检验

我们是否认为我们的统计值与原假设所预测的参数具有足够大的偏差,从而可以有理有据拒绝原假设,而选择另一观点。

P值

在原假设为真的前提下,我们将会观测到的数据的极值不超过我们实际观测到的数据的极值得概率。

P值是对概率的量度,因此只有从长远考虑时才有意义。

在实践中,如果P值“足够小”,即小于0.05,我们就拒绝原假设。小于0.05的概率所表达的意义和“长期结果为每20次不到1次”所表达的意义相当。

我们总有可能是错的

我们的统计总有可能是错误的,这一点永远改变不了。我们是在用长期现象评估短期观察结果,这样的事实必然导致这样的结果。

假设检验无非是提出了这样的一个问题:“我们出于偶然而得到手头这些结果的可能性有多大?” 通过假设检验无法决定性的推翻或证明任何理论;假设检验只能用来帮助我们质疑原假设。

差值推断

计算两个总体平均数之间的差值的置信区间公式:
$$
(\overline{x_{1}}-\overline{x_{2}})\pm 2(\sqrt{\frac{S_{1}^{2}-S_{2}^{2}}{n}})
$$

小样本推断

如果样本很小(小于30),我们不能使用中心极限定理,而应该使用T分布,只有总体本身是正态分布的时候它才有效。

T分布又称之为学生分布

方差分析

方差分析的作用是组间差异和组内差异进行比较。