统计学 · Statistics

Methodology Overview

统计分析方法论流程

从问题定义到结论推断，统计分析遵循系统化的流程框架。

统计分析完整流程

Statistical Analysis Pipeline

统计分析遵循「问题→数据→探索→建模→推断→报告」的系统化流程，模型选择阶段需根据数据特征和研究目标在参数方法、非参数方法、贝叶斯方法和时间序列方法之间做出判断。

假设检验决策树 · Hypothesis Testing Decision Tree

假设检验的核心决策流程：根据研究问题类型选择合适的检验方法，注意检查假设条件（正态性、方差齐性、独立性），最终通过 p 值做出统计决策。

Part I

描述统计

Descriptive Statistics — 用数值和图形概括数据的核心特征，是所有统计分析的起点。

集中趋势 Central Tendency

3 项

均值、中位数、众数

刻画数据中心位置的三种指标，各有适用场景

均值 · 中位数 · 众数

均值是所有数据之和除以数据个数，反映数据的集中趋势；中位数是将数据排序后位于中间位置的值，对异常值具有稳健性；众数是出现频率最高的值，适用于分类数据。三者从不同角度刻画数据的中心位置。

核心公式

x̄ = (1/n) Σxᵢ | x̃ = x₍(n+1)/2₎ (排序后) | mode = argmax f(x)

应用场景

收入分布分析中常用中位数而非均值（避免极端富人拉高均值）；电商中众数用于发现最热门商品；质量控制中均值用于监控生产过程中心趋势。

变异系数与四分位距

离散程度的标准化度量与稳健度量

变异系数 · 四分位距

变异系数 CV = σ/μ 是无量纲的相对离散度量，适合比较不同量纲数据的离散程度。四分位距 IQR = Q₃ - Q₁ 衡量中间50%数据的分散程度，对异常值具有稳健性，是箱线图的核心。

核心公式

CV = σ / μ | IQR = Q₃ - Q₁ | 异常值: x < Q₁-1.5×IQR 或 x > Q₃+1.5×IQR

离散程度 Dispersion

2 项

方差与标准差

衡量数据偏离均值程度的核心指标

方差 · 标准差

方差衡量数据点相对于均值的偏离程度，是各数据与均值差的平方的平均值。标准差是方差的平方根，与原始数据量纲一致，更易解释。注意样本方差使用 n-1（Bessel校正）以获得无偏估计。

核心公式

σ² = (1/n) Σ(xᵢ - x̄)² | s² = (1/(n-1)) Σ(xᵢ - x̄)² | σ = √σ²

应用场景

金融领域用于衡量投资组合风险（波动率）；制造业中用于六西格玛质量控制；A/B测试中用于评估指标波动是否在正常范围。

分布形态 Distribution Shape

2 项

偏度与峰度

刻画分布对称性和尾部厚度的高阶矩

偏度 · 峰度

偏度（Skewness）衡量分布的不对称性：正偏（右偏）表示右尾较长，负偏（左偏）表示左尾较长。峰度（Kurtosis）衡量分布尾部的厚度：高峰度意味着更多的极端值（厚尾），正态分布峰度为3（超额峰度为0）。

核心公式

Skew = E[(X-μ)³] / σ³ | Kurt = E[(X-μ)⁴] / σ⁴ | Excess Kurt = Kurt - 3

概率论基础

Probability Theory — 统计推断的数学基石，从随机变量到大数定律与中心极限定理。

正态分布 · Normal

f(x) = (1/√(2πσ²)) · exp(-(x-μ)²/(2σ²))

记为 X ~ N(μ, σ²)。μ 控制位置，σ 控制尺度。标准正态: Z = (X-μ)/σ ~ N(0,1)

t 分布 · Student's t

T = Z / √(χ²ᵥ/v) df = v

小样本均值推断的核心分布。当 df→∞ 时趋近正态分布。对称、钟形、厚尾。

卡方分布 · Chi-Square

χ² = Σ Zᵢ² df = k

k 个独立标准正态变量平方和。用于方差检验、拟合优度检验、列联表分析。

F 分布 · Fisher

F = (χ²₁/d₁) / (χ²₂/d₂)

两个卡方变量之比。ANOVA 和回归显著性检验的核心分布。

泊松分布 · Poisson

P(X=k) = (λᵏe⁻ᵏ) / k!

单位时间/空间内稀有事件发生次数的分布。E[X]=Var[X]=λ。

二项分布 · Binomial

P(X=k) = C(n,k) · pᵏ · (1-p)ⁿ⁻ᵏ

n 次独立伯努利试验中成功次数的分布。E[X]=np, Var[X]=np(1-p)。

随机变量与分布 Random Variables

3 项

离散型与连续型随机变量

PMF/PDF/CDF 的定义与性质

随机变量 · 分布函数

随机变量将样本空间映射到实数集。离散型用概率质量函数 PMF 描述，连续型用概率密度函数 PDF 描述。分布函数 F(x) = P(X ≤ x) 对所有随机变量都有定义，具有单调不减、右连续、F(-∞)=0, F(+∞)=1 的性质。

核心关系

F(x) = ∫₋∞ˣ f(t)dt | P(a < X ≤ b) = F(b) - F(a) | f(x) = F'(x)

极限定理 Limit Theorems

2 项

大数定律

样本均值依概率收敛于总体均值

大数定律 (LLN)

大数定律是频率学派概率解释的数学基础。弱大数定律：样本均值依概率收敛于 μ。强大数定律：样本均值几乎必然收敛于 μ。它保证了当样本量足够大时，样本统计量可以可靠地估计总体参数。

核心表述

X̄ₙ →ᵖ μ | ∀ε>0: P(|X̄ₙ - μ| > ε) → 0, n→∞

中心极限定理

独立同分布随机变量之和渐近正态

中心极限定理 (CLT)

中心极限定理是统计学中最重要的定理之一。无论总体分布是什么形状，只要满足一定条件（独立同分布、方差有限），样本均值的标准化形式在大样本下近似服从标准正态分布。这为大样本推断提供了理论基础。

核心公式

(X̄ₙ - μ) / (σ/√n) →ᵈ N(0,1) 当 n → ∞

多维分布 Multivariate Distributions

3 项

联合、边缘与条件分布

多维随机变量的完整概率描述

联合 · 边缘 · 条件分布

联合分布描述多个随机变量同时取值的概率规律。边缘分布通过对联合分布积分（或求和）得到单个变量的分布。条件分布描述在已知某些变量取值的条件下其他变量的分布。三者通过概率乘法法则联系在一起。

核心关系

f(x,y) = f(y|x)·fₓ(x) | fₓ(x) = ∫f(x,y)dy | f(y|x) = f(x,y)/fₓ(x)

Part III

推断统计

Inferential Statistics — 从样本到总体，通过参数估计和假设检验做出科学推断。

参数估计 Parameter Estimation

4 项

点估计与估计量评价

无偏性、有效性、一致性、充分性

点估计 · 估计量性质

点估计是用单个统计量估计总体参数。好的估计量应满足：无偏性（E[θ̂]=θ）、有效性（方差最小）、一致性（大样本收敛于真值）、充分性（不损失样本信息）。样本均值是总体均值的最佳线性无偏估计（BLUE）。

评价标准

无偏: E[θ̂] = θ | MSE = Var(θ̂) + [Bias(θ̂)]² | 一致性: θ̂ →ᵖ θ

区间估计与置信区间

量化估计的不确定性范围

置信区间

置信区间提供参数估计的不确定性范围。95%置信区间的含义：如果反复抽样并构建区间，约95%的区间会包含真实参数值。置信区间比单一p值提供更丰富的信息——同时给出效应大小和精度。

核心公式

CI = x̄ ± z_{α/2} × (σ/√n) | 一般形式: 估计值 ± 临界值 × 标准误

最大似然估计 (MLE)

选择使观测数据出现概率最大的参数值

最大似然估计

MLE 的核心思想：选择使观测数据的似然函数达到最大值的参数值。MLE 具有一致性、渐近正态性和渐近有效性等优良性质。对数似然方程通常更容易求解。在大样本下，MLE 是最优估计方法。

核心公式

L(θ) = ∏f(xᵢ|θ) | ℓ(θ) = Σln f(xᵢ|θ) | ∂ℓ/∂θ = 0 → θ̂_MLE

矩估计

用样本矩匹配总体矩的估计方法

矩估计 (Method of Moments)

矩估计通过令样本矩等于总体矩来求解参数估计。一阶矩对应均值，二阶矩对应方差。矩估计计算简单，不需要似然函数，但通常不如MLE有效。在某些模型中矩估计可作为MLE的初始值。

核心公式

E[Xᵏ] = (1/n)Σxᵢᵏ | 联立求解参数: μ₁(θ) = m₁, μ₂(θ) = m₂, ...

假设检验 Hypothesis Testing

3 项

I 类 / II 类错误与功效

α、β 与检验功效 (1-β) 的权衡

两类错误 · 检验功效

I 类错误（α）：H₀ 为真时错误地拒绝 H₀（假阳性）。II 类错误（β）：H₀ 为假时未能拒绝 H₀（假阴性）。检验功效 1-β 是正确拒绝错误 H₀ 的概率。α 和 β 此消彼长，需在二者间权衡。增大样本量可同时降低两类错误。

核心公式

α = P(拒绝H₀ | H₀真) | β = P(不拒绝H₀ | H₀假) | Power = 1 - β

p 值

在 H₀ 为真时观察到当前或更极端结果的概率

p 值的正确理解

p 值是在零假设为真的前提下，观察到当前样本结果或更极端结果的概率。p 值越小，反对 H₀ 的证据越强。常见误解：p 值不是 H₀ 为真的概率，也不是 H₁ 为真的概率。近年来 p 值的滥用引发"可重复性危机"，ASA 已发布声明规范 p 值使用。

核心定义

p = P(T ≥ t_obs | H₀ 为真) | 决策: 若 p < α，拒绝 H₀

常用检验方法 Common Tests

4 项

t 检验

单样本、独立双样本、配对样本的均值检验

t 检验

t 检验用于小样本情况下对均值进行推断。单样本 t 检验检验总体均值是否等于某个值；独立双样本 t 检验比较两组均值是否有差异；配对 t 检验比较同一组对象前后差异。要求数据近似正态分布（或大样本下由 CLT 保证）。

核心公式

单样本: t = (x̄ - μ₀)/(s/√n), df=n-1 双样本: t = (x̄₁-x̄₂)/√(s₁²/n₁+s₂²/n₂) 配对: t = d̄/(s_d/√n), 其中 dᵢ = x₁ᵢ-x₂ᵢ

卡方检验

拟合优度检验与独立性检验

卡方检验

卡方检验有两种主要应用：拟合优度检验（观测频数是否符合某理论分布）和独立性检验（两个分类变量是否独立）。检验统计量为观测频数与期望频数偏差的加权平方和。

核心公式

χ² = Σ (Oᵢ - Eᵢ)² / Eᵢ | df = (r-1)(c-1) (独立性检验)

方差分析 (ANOVA)

比较多组均值差异的方差分解方法

方差分析 (ANOVA)

ANOVA 用于比较三个或更多组的均值是否有显著差异。核心思想是将总变异分解为组间变异（由因素解释）和组内变异（随机误差）。F 统量 = 组间方差/组内方差。若 F 值足够大，说明至少有一组与其他组显著不同。

核心公式

F = MS_between / MS_within = [SS_between/(k-1)] / [SS_within/(N-k)] SS_total = SS_between + SS_within

非参数检验

不依赖分布假设的检验方法

非参数检验

当数据不满足正态性等参数假设时，非参数检验是替代方案。Wilcoxon 秩和检验替代独立样本 t 检验；Wilcoxon 符号秩检验替代配对 t 检验；Kruskal-Wallis 检验替代单因素 ANOVA。非参数方法以检验功效为代价换取稳健性。

常用方法对照

Wilcoxon 秩和 ↔ 独立t检验 | Kruskal-Wallis ↔ ANOVA 符号秩检验 ↔ 配对t检验 | Friedman ↔ 重复测量ANOVA

多重比较校正 Multiple Comparisons

2 项

Bonferroni 校正

控制族系误差率 (FWER) 的经典方法

Bonferroni 校正

当进行多次假设检验时，I 类错误的概率会膨胀。Bonferroni 校正通过将显著性水平 α 除以检验次数 m 来控制族系误差率 (FWER)。方法简单但过于保守，当检验次数很多时会大幅降低检验功效。

核心公式

调整后 α* = α/m | 拒绝 Hᵢ 当 pᵢ < α/m | FWER ≤ α

FDR 控制 (Benjamini-Hochberg)

控制错误发现率，适用于大规模检验

错误发现率 (FDR) 控制

FDR = E[被错误拒绝的比例]。Benjamini-Hochberg (BH) 程序控制 FDR 而非 FWER，在大规模多重检验（如基因组学中上万个基因同时检验）中比 Bonferroni 方法具有更高的检验功效。BH 程序是当今基因组学、神经影像学等领域的标准方法。

BH 程序

将 p 值排序: p₍₁₎ ≤ p₍₂₎ ≤ ... ≤ p₍ₘ₎ 找到最大的 k 使得 p₍ₖ₎ ≤ (k/m)·α 拒绝所有 H₍ᵢ₎, i=1,...,k

Part IV

回归分析

Regression Analysis — 建模变量间关系的核心工具，从线性回归到广义线性模型。

线性回归 Linear Regression

3 项

OLS 估计与假设检验

最小二乘法、回归系数显著性检验

OLS 估计 · 回归检验

线性回归通过最小化残差平方和拟合因变量与自变量之间的线性关系。OLS 估计量是 BLUE（最佳线性无偏估计，Gauss-Markov 定理）。模型假设 LINE：线性、独立性、正态性、等方差。

核心公式

y = β₀ + β₁x + ε | β̂ = (X'X)⁻¹X'y | R² = 1 - SS_res/SS_tot

回归诊断

残差分析、影响点检测、假设验证

回归诊断

回归诊断用于验证模型假设是否成立。残差图检测异方差和非线性；Q-Q 图检验正态性；Cook's 距离识别强影响点；VIF 检测多重共线性。良好的诊断是可靠推断的前提。

诊断工具

残差: eᵢ = yᵢ - ŷᵢ | Cook's D: Dᵢ = (eᵢ²/(p·MSE)) · (hᵢᵢ/(1-hᵢᵢ)²) VIF_j = 1/(1-R²_j) | VIF > 10 → 严重共线性

多元回归与正则化 Multiple & Regularization

3 项

多重共线性与变量选择

VIF 检验、前向/后向/逐步选择

多重共线性 · 变量选择

多元回归中自变量高度相关会导致系数估计不稳定、标准误膨胀。VIF（方差膨胀因子）用于检测共线性。变量选择方法包括：前向选择（逐步加入显著变量）、后向消除（逐步删除不显著变量）、逐步回归（双向）。AIC/BIC 用于模型选择的信息准则。

核心公式

调整R² = 1 - (1-R²)(n-1)/(n-k-1) AIC = -2ln(L) + 2k | BIC = -2ln(L) + k·ln(n)

Ridge 与 Lasso 回归

L2/L1 正则化防止过拟合与变量选择

正则化回归

正则化通过在损失函数中加入惩罚项来防止过拟合。L1 正则化（Lasso）倾向于产生稀疏解（部分系数为 0，实现变量选择）；L2 正则化（Ridge）缩小所有系数但不为 0；Elastic Net 结合两者优点。正则化参数 λ 通过交叉验证选择。

核心公式

Ridge: min ||y-Xβ||² + λ||β||₂² Lasso: min ||y-Xβ||² + λ||β||₁ Elastic Net: min ||y-Xβ||² + λ₁||β||₁ + λ₂||β||₂²

广义线性模型 Generalized Linear Models

2 项

逻辑回归

二分类问题的基准模型

逻辑回归

逻辑回归用于因变量为二分类（0/1）的情况。通过 logit 函数将线性组合映射到 [0,1] 概率区间。模型输出的是事件发生的对数几率 (log-odds)，通过 sigmoid 函数转化为概率。是分类问题的基准模型。

核心公式

logit(p) = ln(p/(1-p)) = β₀ + β₁x₁ + ... + βₖxₖ p = 1/(1+e^(-z)), z = β'x

泊松回归

计数数据的回归建模

泊松回归

泊松回归用于因变量为计数数据（非负整数）的情况。假设因变量服从泊松分布，使用对数连接函数将线性预测子与期望值联系。适用于预测事件发生次数，如保险索赔次数、网站访问次数、缺陷数等。

核心公式

log(μ) = β₀ + β₁x₁ + ... + βₖxₖ P(Y=k) = (μᵏe⁻μ)/k! | E[Y] = Var[Y] = μ

非参数回归 Nonparametric Regression

2 项

核回归 (Nadaraya-Watson)

基于核加权的局部平均估计

核回归

核回归不假设函数的具体形式，通过在每个目标点附近用核函数加权平均来估计条件均值。带宽 h 控制平滑程度：h 大则更平滑（高偏差低方差），h 小则更灵活（低偏差高方差）。带宽选择是核回归的核心问题。

核心公式

m̂(x) = ΣK_h(x-xᵢ)yᵢ / ΣK_h(x-xᵢ) K_h(u) = (1/h)K(u/h) | 常用: 高斯核 K(u) = (1/√(2π))e^(-u²/2)

局部多项式回归 (LOESS/LOWESS)

局部加权多项式拟合的灵活非参数方法

局部多项式回归

LOESS（局部估计散点图平滑）在每个点的邻域内拟合低阶多项式，通过加权最小二乘实现。相比核回归，局部多项式方法在边界处偏差更小。平滑参数（span）控制邻域大小，是偏差-方差权衡的关键。广泛用于探索性数据分析。

核心思路

在 x₀ 的邻域内: min Σwᵢ(yᵢ - β₀ - β₁(xᵢ-x₀))² m̂(x₀) = β̂₀ | wᵢ = K_h(xᵢ-x₀) · uᵢ (三立方权重)

Part V

时间序列分析

Time Series Analysis — 分析随时间变化的数据，从平稳性检验到 ARIMA 建模与波动率建模。

ARIMA(p,d,q) 建模流程 · Box-Jenkins Methodology

平稳性 Stationarity

2 项

单位根检验 / ADF 检验

判断时间序列是否平稳

ADF 检验 (Augmented Dickey-Fuller)

平稳性是时间序列建模的基本前提。ADF 检验的零假设为"存在单位根"（非平稳）。若检验统计量小于临界值（或 p 值小于 α），则拒绝单位根假设，认为序列平稳。非平稳序列通常需要差分处理。

核心公式

Δyₜ = α + βt + γyₜ₋₁ + ΣδᵢΔyₜ₋ᵢ + εₜ H₀: γ=0 (单位根) | H₁: γ<0 (平稳)

ARMA / ARIMA 模型 Autoregressive Integrated Moving Average

2 项

AR、MA 与 ARMA 模型

自回归与移动平均的基本组合

ARMA(p,q) 模型

AR(p) 模型用过去 p 个时间点的值线性预测当前值。MA(q) 模型用过去 q 个预测误差线性预测当前值。ARMA(p,q) 结合两者，适用于平稳时间序列。建模流程：识别（ACF/PACF 定阶）→ 估计 → 诊断 → 预测。

核心公式

AR(p): yₜ = c + φ₁yₜ₋₁ + ... + φₚyₜ₋ₚ + εₜ MA(q): yₜ = μ + εₜ + θ₁εₜ₋₁ + ... + θqεₜ₋q ARMA: φ(B)yₜ = θ(B)εₜ

ARIMA 与季节性扩展

差分处理非平稳序列，SARIMA 处理季节性

ARIMA(p,d,q) 与 SARIMA

ARIMA 通过差分将非平稳序列转为平稳序列再用 ARMA 建模。d 为差分次数。SARIMA 加入季节性成分，记为 ARIMA(p,d,q)(P,D,Q)s。建模流程遵循 Box-Jenkins 方法论：识别→估计→诊断→预测，若诊断不通过则重新识别。

核心公式

ARIMA(p,d,q): φ(B)(1-B)ᵈyₜ = θ(B)εₜ SARIMA: φ(B)Φ(Bˢ)(1-B)ᵈ(1-Bˢ)ᴰyₜ = θ(B)Θ(Bˢ)εₜ

协整与误差修正 Cointegration & ECM

1 项

协整关系与误差修正模型

非平稳变量间的长期均衡关系

协整分析 · 误差修正模型

两个或多个非平稳时间序列可能存在长期均衡关系，即它们的线性组合是平稳的，这称为协整。协整关系意味着变量之间存在"共同趋势"。Engle-Granger 两步法和 Johansen 检验是常用的协整检验方法。误差修正模型 (ECM) 描述短期偏离向长期均衡的调整过程。

核心公式

协整: 若 Xₜ~I(1), Yₜ~I(1), 且 Yₜ-βXₜ~I(0) ECM: ΔYₜ = α(Yₜ₋₁-βXₜ₋₁) + ΣγᵢΔYₜ₋ᵢ + ΣδⱼΔXₜ₋ⱼ + εₜ

GARCH 模型 Volatility Modeling

1 项

GARCH 波动率建模

建模金融时间序列的波动率聚类现象

GARCH(1,1) 模型

GARCH 模型用于建模时间序列的波动率聚类现象——大波动后往往跟随大波动，小波动后跟随小波动。GARCH(1,1) 是金融市场波动率建模的标准模型。扩展包括 EGARCH（处理不对称性）和 GJR-GARCH（门限模型）。

核心公式

σ²ₜ = ω + αε²ₜ₋₁ + βσ²ₜ₋₁ 约束: ω>0, α≥0, β≥0, α+β<1

应用场景

金融风险度量（VaR 计算）；期权定价中的波动率建模；投资组合风险管理；高频交易策略中的波动率预测。

Part VI

贝叶斯统计

Bayesian Statistics — 通过先验知识与观测数据的融合进行推断，从贝叶斯定理到 MCMC 计算方法。

贝叶斯推断 vs 频率派推断 · Bayesian vs Frequentist

贝叶斯定理 Bayes' Theorem

2 项

先验、似然与后验

贝叶斯推断的核心框架

贝叶斯推断框架

贝叶斯推断的核心是将参数视为随机变量，通过贝叶斯定理将先验知识与观测数据融合得到后验分布。先验分布 P(θ) 表示在观测数据之前对参数的信念；似然函数 P(D|θ) 表示在给定参数下观测到数据的概率；后验分布 P(θ|D) 是更新后的信念。

核心公式

P(θ|D) = P(D|θ)·P(θ) / P(D) = P(D|θ)·P(θ) / ∫P(D|θ)·P(θ)dθ 后验 ∝ 先验 × 似然

共轭先验

Beta-二项、正态-正态等共轭对

共轭先验

共轭先验是指先验分布与似然函数属于同一分布族，使得后验分布也是同一分布族。这大大简化了计算。常用共轭对：Beta-二项（成功率推断）、正态-正态（均值推断）、Gamma-泊松（计数数据推断）。

核心公式

Beta-二项: p ~ Beta(α,β), X|p ~ Bin(n,p) → p|X ~ Beta(α+x, β+n-x) 正态-正态: θ ~ N(μ₀,σ₀²), X|θ ~ N(θ,σ²) → θ|X ~ N(μₙ, σₙ²)

MCMC 方法 Markov Chain Monte Carlo

2 项

Metropolis-Hastings 算法

通过接受-拒绝机制从目标分布采样

Metropolis-Hastings

当后验分布无法解析计算时，MCMC 方法通过构建马尔可夫链来近似采样。MH 算法的核心：提出新候选点，根据接受概率决定是否移动。接受概率保证链的平稳分布等于目标后验分布。收敛后，样本可近似后验分布的任何性质。

核心算法

提出: θ* ~ q(θ*|θₜ) 接受概率: α = min(1, [π(θ*)q(θₜ|θ*)] / [π(θₜ)q(θ*|θₜ)]) 接受: θₜ₊₁ = θ* with prob α, 否则 θₜ₊₁ = θₜ

Gibbs 采样

多变量分布的逐分量条件采样

Gibbs 采样

Gibbs 采样是 MH 算法的特例，当条件分布容易采样时特别高效。核心思想：依次从每个变量的条件分布中采样（固定其他变量）。Gibbs 采样的接受率为 1（无拒绝），在高维问题中比通用 MH 算法更高效。JAGS、BUGS 等软件广泛使用。

核心算法

对每个分量 i=1,...,d: 从 P(θᵢ | θ₋ᵢ, D) 采样 θᵢ⁽ᵗ⁺¹⁾ 其中 θ₋ᵢ 表示除第 i 个分量外的所有参数