Table of Contents
- 前言:什么是统计?
- 产生数据
- 数据从何而来?
- 好样本与坏样本
- 样本告诉我们什么?
- 真实世界中的抽样调查
- 实验面面观
- 真实世界中的实验
- 数据伦理
- 度量
- 数字合不合理
- 整合数据
- 好的图和坏的图
- 用图形呈现分布
- 用数字描述分布
- 正态分布
- 描述相关关系的方法:散布图和相关系数
- 描述相关关系:回归、预测及因果关系
- 消费者物价指数和政府统计
- 机遇
- 考虑可能性
- 概率模型
- 模拟
- 赌场的优势:期望值(expected value)
- 推论
- 什么是置信区间
- 什么是显著性检验
- 统计推论的使用与滥用
- 双向表及卡方检验
- 有关总体平均数的推论
前言:什么是统计?
统计是从数据中找出信息,并且做出结论。
产生数据
数据从何而来?
- 观测研究(observational study):观察一些个体,并度量变量
- 抽样调查(sample survey):检查一部分来得知全体
- 普查(census):是企图把整个总体纳入样本的抽样调查
好样本与坏样本
- 有偏(biased)抽样法,bad
- 简单随机样本(simple random sample, SRS),消除 bias
样本告诉我们什么?
- 样本无法告诉我们总体的准确信息,但会提供一个误差界限(margin of error)
- 从样本到总体:用样本的事实,当做真实信息的估计(estimate)
- 多次随机抽样,样本的变异状况会遵循某种可预测的形态(pattern) -> 较大样本所得结果的变异会更小
- 偏差 bias 是当我们取很多样本时,统计量一直朝同一个方向偏离总体的参数值 变异性 variability 描述的是当取很多样本时,统计量的值会离散到什么程度(多次随机抽样看结果分布情况)
- 一个好的抽样应该同时具备偏差小和变异性小
- 降低偏差:随机抽样(SRS)即可,得到无偏估计值(unbiased estimate) 降低变异性:增大样本
- 误差界限(margin of error):样本离总体参数有多远 例如多次随机抽样,样本中有 95%所得的结果在总体真实值的+-3%范围内(即有 95%的信心)
- 置信叙述(confidence statement)包含 2 个部分:误差界限和置信水平(level of confidence) 置信水平:所有可能样本中有多少百分比满足这样的误差界限 较高置信水平的代价是较大的误差界限,相同置信水平下要降低误差界限则取更大的样本
总结
- 好样本:偏差小 & 变异性小,SRS 降低偏差,增大样本降低变异性
- 置信叙述:描述精确程度
真实世界中的抽样调查
现实世界中 SRS 并不简单,也不一定随机!
- 抽样会发生误差 1.抽样误差(sampling error):抽样这个动作所造成的误差,抽样误差使样本结果与普查结果不同。 2.随机抽样误差(random sampling error):样本统计量和总体参数之间的差距,选取样本时造成。置信叙述中的误差界限只包含随机抽样误差。 3.非抽样误差(nonsampling error):和“从总体取样”无关的误差。
- 抽样误差来源:涵盖不全(undercoverage),漏掉了某些群体 非抽样误差来源:处理误差(processing error) & 回应误差(response error) 无回应(nonresponse):缺少数据 -> 数据稀疏
- 应对非抽样误差:给回应加权,以期导正偏差来源
- 真实世界中的抽样设计:分层抽样(stratified sampling),分层指根据某些性质分类,优于 SRS 的 2 点:1.可以得到有关各层的个别信息 2.误差界限通常比 SRS 小(同层的相似度比总体大,所以可消除样本中某些变异性)
- 概率样本(probability sample):利用概率抽取样本。要先知道哪些样本是可能的,以及它们被抽中的概率。
实验面面观
- 反应变量/因变量(dependent variable):用来度量研究结果的变量 解释变量/独立变量/自变量(independent variable):可以解释 or 造成反应变量变化的变量 潜在变量:对其他变量有重要影响,却未被列为解释变数的变量
- 交叉:当两个变量对反应变数的影响混在一起无法区分时,我们称这两个变量是交叉的 交叉变量可以是解释变量,也可以是潜在变量
- 安慰剂效应(placebo effect)
- 随机化比较实验
- 统计实验设计原则: 1.控制潜在变量的影响,最简单的方法是同时比较至少 2 个处理 2.随机化:用非人为的随机方法来指派受试对象到不同的处理组 3.每一组的受试对象要足够多,以减低结果中的机遇变异
- 统计显著性(statistical significance):观察到的效果大到某种程度,光靠机遇产生这种结果的概率很小时,我们就称此结果具有统计显著性。
- 因果 cause and effect
真实世界中的实验
- 双盲实验(double-blind experiment)
- 真实世界中的实验设计:完全随机化设计、配对设计、区集设计
数据伦理
度量
单位、数值、精确度、有效/无效度量、误差、可靠度
数字合不合理
整合数据
好的图和坏的图
- 统计是处理数字的,我们用表和图来呈现数字
- 数据表、饼状图(pie chart)、柱状图(bar graph)
- 类别变量(categorical variable)和数量变量(quantitative variable)
- 线图(line graph):变量随时间而变化
用图形呈现分布
- 茎叶图(stemplot/stem-and-leafplot)
- 直方图(histogram)
用数字描述分布
- 中位数(median) M
- 四分位数(quartile) Q1 Q2
- min-max
- 五数综合:min Q1 M Q2 max
- 箱形图(boxplot):画五数综合
- 平均数(mean)
- 标准差(standard deviation):度量离度,与平均数相距的平均距离
- 方差(variance):标准差的平方
- 正态分布(normal distributions)
正态分布
- 正态分布(normal distribution)也叫高斯分布(Gaussian distribution)
- 正态曲线(normal curve)
- 密度曲线(density curve)
- 正态密度曲线
- 68-95-99.7 规则: 在任何正态分布中,大约有 68%的观测值,落在距平均数一个标准差的范围内 95%的观测值,落在距平均数两个标准差的范围内 99.7%的观测值,落在距平均数三个标准差的范围内
- 标准计分(standard score)= (观测值-平均值)/标准差
描述相关关系的方法:散布图和相关系数
- 散布图(scatter plot)
- 正相关(positive association)和负相关(negative association)
- 相关系数(correlation):描述两个数值变量之间的直线相关的方向和强度,用于度量相关性。
- 相关系数 r = 1/(n-1) ∑ (x-\bar{x})/sx (y-\bar{y})/sy
- r 的正/负表示正/负相关,值在[-1,1]
描述相关关系:回归、预测及因果关系
- 回归(regression):替数据匹配模型,以便做预测
- 回归直线
- 最小二乘法(least-squares method)
- 回归直线的预测功能,视相关系数强度而定
- 统计及因果的几大事实: 1.强相关性也不一定代表因果关系 2.相关性常常受潜在变量(lurking variable)的影响 3.建立因果关系最好的证据,来自随机化比较实验 4.两个变量的相互关系,可能来自于直接因果关系(direct causation)、共同反应(common response)或是交叉。也可能是几种因素的组合。 5.观察到的相互关系不管是不是因果,都可以拿来做预测,只要从以前的数据找出来的形态仍然适用。
消费者物价指数和政府统计
- 消费者物价指数(Customer Price Index, CPI)
- 指数(index number):以变量在某个基期的值为标准,该变量对于基期值的比值大小 指数 = 变量值/基期值 * 100
机遇
机遇(chance)的数学叫做概率(probability)。
考虑可能性
- 短期无法预测,长期则会呈现有规则且可预测的模式
概率模型
模拟
simulation
- 独立
赌场的优势:期望值(expected value)
- 赢的概率、赢多少
- 大数法则(law of large numbers):如果结果为数值的随机现象独立地重复许多次,实际观测到的结果其平均值会趋近期望值。
- 赌场、保险公司都是算好了期望,根据大数定理来长期获利,但个人参与的次数太少了
推论
什么是置信区间
置信区间 confidence interval
- 置信区间估计一个未知参数,可以提供我们该估计的不确定程度
什么是显著性检验
- 检验要判断样本数据是否提供了不利于断言的证据,即检验样本证据强度的数值量度
- 要证明总体中有某种特定的效应,统计检验会先假设该效应不存在
- 显著性检验:检验是设计来评估,否定原假设的证据有多强 第一步,先列出一个断言,即原假设(null hypothesis),设为 H0 取代 H0 的备择假设(alternative hypothesis)Ha 显著性检验会找对 H0 不利,但对 Ha 有利的证据
- 统计检验的 P 值(P-value)是在 H0 为真的假设下,所得样本结果会像实际观测结果那么极端 or 更极端的概率。 P 值越小,则否定 H0 的证据就越强
- 显著水平(significance level),通常用\alpha 表示 如果 P <= α,则称该组数据有\alpha 的统计显著性水平
- P<0.10 代表有一些证据不利于原假设 P<0.05 代表适度证据 O<0.01 代表有力证据
- 显著在统计上的意义:代表“光靠机遇不容易发生”
统计推论的使用与滥用
- 显著性检验的 P 值不仅和样本大小相关,也和总体真正值相关
- 增大样本对置信区间有直接的影响,通常也会把 P 值变小
- 样本很大时,即使 P 很小也不见得有实际意义;样本小时,总体的重要真实情况可能达不到统计显著性的标准
双向表及卡方检验
双向表(two-way table),行列都是类别变量而非数值变量,如:
Female | Male | Total | |
---|---|---|---|
Assistant Prof. | 126 | 213 | 339 |
Associate Prof. | 149 | 411 | 560 |
Professor | 60 | 662 | 722 |
Total | 335(20.7%) | 1286(79.3%) | 1621 |
- 辛普森悖论(Simpson's paradox):在分组比较中都占优势的一方,在总评(几组数据合并)中有时反而是失势的一方。 注意潜在变量!
- 卡方(chisquare)检验:用来判断双向表里所出现的相关关系是否有统计显著性