🎯 目标:掌握深度学习核心概念,熟练使用PyTorch框架进行模型开发,理解RNN/LSTM/GRU序列模型。 📋 前置要求:阶段一(Python基础、微积分、线性代数、机器学习基础)
本阶段知识依赖图
flowchart TD
A[阶段一基础] --> B[神经网络基础]
A --> PyTorch["PyTorch框架(贯穿始终)"]
B --> B1[反向传播] --> B2[激活函数/正则化]
B --> C["CNN(图像处理)"] --> C1[经典CNN模型] --> C2[迁移学习]
B --> D["RNN(序列处理)"] --> D1[LSTM] --> D2[GRU]
D1 --> D3[深度/双向RNN]
PyTorch --> P1[张量操作] --> P1a[自动求导]
PyTorch --> P2[模型构建] --> P2a[训练循环]
PyTorch --> P3[数据加载] --> P3a["Dataset/DataLoader"]
PyTorch --> P4[训练优化] --> P4a[混合精度/学习率调度]
模块一:神经网络与PyTorch基础
1.1 神经网络基础——从生物到数学
什么是神经网络?
类比:一个决策工厂
想象你要判断一张图片是否是猫。你的大脑会怎么做?
- 先识别边缘(这里有条线,那里有个弧形)
- 再组合成形状(这个弧形+那个三角形 = 耳朵?)
- 最后做出判断(有尖耳朵+胡须+毛茸茸 → 大概率是猫)
神经网络做的就是同样的事——分层提取特征,逐层抽象,最终做出判断。
| 生物神经元 | 人工神经元 |
|---|---|
| 树突(输入信号) | 输入 $x_1, x_2, x_3$ |
| 细胞体(加权求和) | $z = w_1 x_1 + w_2 x_2 + w_3 x_3 + b$ |
| 轴突(激活判断) | $a = \text{activation}(z)$ |
| 突触(输出信号) | 输出 $a$ |
每个神经元在做什么? 两件事:
- 加权求和:把所有输入乘以各自的权重再加起来(“每个因素的重要程度不同”)
- 激活函数:对求和结果做一个非线性变换(“做出是否激活的决定”)
类比:一个神经元就像一个"评委"——它听取多方意见(输入),给每个意见不同的权重(重要程度),最后综合所有意见给出自己的评分(输出)。
神经网络的结构
| 输入层 | 隐藏层1 | 隐藏层2 | 输出层 |
|---|---|---|---|
| 3个输入 | 4个神经元 | 3个神经元 | 2个输出 |
前向传播(Forward Pass):数据从左到右流过网络,逐层计算
$$ \begin{aligned} h_1 &= \text{activation}(W_1 \cdot x + b_1) \quad \text{(第1层:原始输入 → 低级特征)} \\ h_2 &= \text{activation}(W_2 \cdot h_1 + b_2) \quad \text{(第2层:低级特征 → 高级特征)} \\ y &= W_3 \cdot h_2 + b_3 \quad \text{(输出层:高级特征 → 最终预测)} \end{aligned} $$每一层在做什么?
- 第1层:看到像素 → 识别边缘(“这里有条竖线”)
- 第2层:看到边缘 → 识别形状(“这个形状像耳朵”)
- 第3层:看到形状 → 做出判断(“有耳朵+胡须 → 是猫”)
这就是"分层抽象"——每一层把上一层的输出当作输入,提取更高层次的特征。
为什么需要激活函数?——非线性的力量
如果没有激活函数会怎样?
没有激活函数:
$$ \begin{aligned} h_1 &= W_1 \cdot x + b_1 \\ h_2 &= W_2 \cdot h_1 + b_2 \\ y &= W_3 \cdot h_2 + b_3 \end{aligned} $$合并起来:$y = W_3 \cdot (W_2 \cdot (W_1 \cdot x + b_1) + b_2) + b_3 = W \cdot x + b$(还是一个线性变换!)
再多层也等于一层!因为线性变换的组合还是线性变换。
激活函数的作用——引入非线性:
有了激活函数:
$$ \begin{aligned} h_1 &= \sigma(W_1 \cdot x + b_1) \\ h_2 &= \sigma(W_2 \cdot h_1 + b_2) \\ y &= W_3 \cdot h_2 + b_3 \end{aligned} $$这时,两层网络 ≠ 一层网络!因为非线性变换的组合可以逼近任意复杂的函数。
这就是"万能近似定理"(Universal Approximation Theorem):一个有足够多神经元的单隐层网络,可以逼近任意连续函数。
常用激活函数对比:
| 激活函数 | 公式 | 特点 | 使用场景 |
|---|---|---|---|
| Sigmoid | $\frac{1}{1+e^{-x}}$ | 输出(0,1),有梯度消失问题 | 二分类输出层 |
| Tanh | $\frac{e^x-e^{-x}}{e^x+e^{-x}}$ | 输出(-1,1),零中心化 | RNN中常用 |
| ReLU | $\max(0, x)$ | 简单高效,无梯度消失 | 隐藏层首选 |
| LeakyReLU | $\max(0.01x, x)$ | 解决ReLU"死神经元"问题 | ReLU的改进 |
| GELU | $x \cdot \Phi(x)$ | 平滑版ReLU | Transformer中常用 |
| Swish | $x \cdot \sigma(x)$ | 自门控,平滑 | LLaMA中使用 |
ReLU为什么成为主流?
Sigmoid的问题:$\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x))$。当 $x$ 很大或很小时,$\sigma'(x) \approx 0$,导致梯度消失,网络学不动。
ReLU的优势:$\text{ReLU}'(x) = 1$(当 $x > 0$ 时)或 $0$(当 $x \leq 0$ 时)。当 $x > 0$ 时,梯度恒为1,不会消失!计算极其简单(就是一个max操作)。
类比:Sigmoid像一个"渐变开关"——输入越大越开,但永远不会完全开。ReLU像一个"硬开关"——要么全开($x > 0$),要么全关($x \leq 0$)。硬开关虽然粗糙,但胜在简单高效。
1.2 反向传播——让网络"学习"的魔法
核心问题:如何更新权重?
我们有了损失函数 $L$(衡量预测和真实值的差距),目标是找到让 $L$ 最小的权重。方法就是梯度下降:
$$ w_{\text{new}} = w_{\text{old}} - \eta \cdot \frac{\partial L}{\partial w} $$关键是如何计算 $\frac{\partial L}{\partial w}$?这就是反向传播要解决的问题。
类比:工厂流水线的责任追溯
想象一个工厂流水线生产了一个次品(损失L很大):原材料 → 工序1 → 工序2 → 工序3 → 次品
老板想知道"谁的责任最大",以便调整每个工序:
- 反向传播就是从"次品"开始,逆向追溯每个工序的"责任"
- 每个工序的"责任" = 它对最终误差的贡献度 = 梯度
反向传播的完整推导(以2层网络为例)
网络结构:输入 $x$ → [线性层1] → $z_1 = W_1 x + b_1$ → [激活] → $a_1 = \sigma(z_1)$ → [线性层2] → $z_2 = W_2 a_1 + b_2$ → [损失] → $L$
前向传播(已知):
$$ z_1 = W_1 \cdot x + b_1, \quad a_1 = \sigma(z_1), \quad z_2 = W_2 \cdot a_1 + b_2, \quad L = \frac{1}{2}(y - z_2)^2 $$反向传播(从右往左,逐步计算梯度):
Step 1:L对 $z_2$ 的梯度
$$ \frac{\partial L}{\partial z_2} = \frac{\partial}{\partial z_2}\left[\frac{1}{2}(y - z_2)^2\right] = -(y - z_2) = z_2 - y $$直觉:预测值和真实值的差距越大,梯度越大 → 需要调整的力度越大。
Step 2:L对 $W_2$ 和 $b_2$ 的梯度
$$ \frac{\partial L}{\partial W_2} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial W_2} = (z_2 - y) \cdot a_1^T $$$$ \frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial b_2} = z_2 - y $$直觉:$W_2$ 的梯度 = 误差信号 $(z_2 - y)$ × 输入信号 $(a_1)$。如果 $a_1$ 很大,说明这个权重"参与度高",需要调整更多。
Step 3:L对 $a_1$ 的梯度(误差从第2层传回第1层)
$$ \frac{\partial L}{\partial a_1} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial a_1} = W_2^T \cdot (z_2 - y) $$直觉:第2层的误差"按权重比例"分配给第1层的每个神经元。权重越大,分配到的误差越多 → “谁的影响力大,谁的责任就大”。
Step 4:L对 $z_1$ 的梯度
$$ \frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1} = W_2^T \cdot (z_2 - y) \odot \sigma'(z_1) $$其中 $\odot$ 是逐元素相乘,$\sigma'(z_1) = \sigma(z_1) \cdot (1 - \sigma(z_1))$。
直觉:误差信号通过激活函数的导数"过滤"——如果激活函数在该点的导数很小(Sigmoid的饱和区),误差信号被大幅衰减。→ 这就是"梯度消失"的根本原因!
Step 5:L对 $W_1$ 和 $b_1$ 的梯度
$$ \frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial W_1} = \left[W_2^T \cdot (z_2-y) \odot \sigma'(z_1)\right] \cdot x^T $$$$ \frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1} = W_2^T \cdot (z_2-y) \odot \sigma'(z_1) $$总结——反向传播的核心规律:
每一层的梯度计算都可以分解为3步:
- 接收来自下一层的误差信号
- 乘以本层激活函数的导数
- 乘以本层的输入信号
计算图——现代深度学习框架的核心
什么是计算图? 把数学运算画成一个有向图,每个节点是一个操作,每条边是数据流。
示例:$y = (x + 1) \times (x + 2)$。计算过程:$x$ → $[+1]$ → $x+1$ 和 $x$ → $[+2]$ → $x+2$,然后 $(x+1) \times (x+2) = y$。
PyTorch在前向传播时自动构建这个图,反向传播时沿着图的边反向计算梯度。
import torch
# requires_grad=True 告诉PyTorch:"请追踪这个张量的所有操作,构建计算图"
x = torch.tensor(2.0, requires_grad=True)
y = (x + 1) * (x + 2) # PyTorch在背后记录了这个计算过程
y.backward() # 沿计算图反向传播,自动计算梯度
print(x.grad) # dy/dx = (x+2) + (x+1) = 4 + 3 = 7
为什么PyTorch用"动态"计算图?
- 动态图(PyTorch):每次前向传播时实时构建。优点是可用Python的if/for等控制流,调试方便;缺点是每次都要重新构建。
- 静态图(TensorFlow 1.x):先定义图结构,再执行。优点是可以提前优化,运行更快;缺点是调试困难,不灵活。
PyTorch选择了"易用性优先"的动态图策略,这也是它在研究界流行的主要原因。
1.3 PyTorch环境搭建
CUDA安装——为什么需要GPU?
- CPU(中央处理器):少核心(8-16个),每个核心很强 → 适合串行复杂任务
- GPU(图形处理器):多核心(几千个),每个核心较弱 → 适合并行简单任务
神经网络训练的本质 = 大量矩阵乘法 = 高度并行运算 → GPU更适合!
类比:CPU像一个数学教授——能解很难的题,但一次只能解一道。GPU像一群小学生——每个人只会简单加减乘除,但几千人同时算,总速度更快。矩阵乘法正好是"大量简单运算的组合",所以GPU完胜。
安装步骤
# 1. 确认显卡型号和CUDA版本
nvidia-smi
# 2. 安装CUDA Toolkit(根据显卡选择版本)
# 从 https://developer.nvidia.com/cuda-toolkit-archive 下载
# 3. 安装cuDNN(CUDA的深度学习加速库)
# 从 https://developer.nvidia.com/cudnn 下载
# 4. 安装PyTorch(选择对应CUDA版本)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# 5. 验证安装
python -c "import torch; print(torch.cuda.is_available())" # 应输出True
如果显卡不够怎么办?
- Google Colab:免费GPU(T4),适合学习和小实验
- AutoDL等云平台:按小时付费,可选A100/4090等高端GPU
- CPU也能跑:小模型(如BERT-base)用CPU也能训练,只是慢10-50倍
1.4 PyTorch张量操作——深度学习的"积木"
什么是张量?
类比:从数字到张量的"升维之路"
| 维度 | 名称 | 示例 |
|---|---|---|
| 0D | 标量 | 学习率 lr = 0.001 |
| 1D | 向量 | 一个词的嵌入 [0.2, 0.8, -0.1] |
| 2D | 矩阵 | 一个batch的数据 (32, 784) |
| 3D | 3D张量 | 彩色图片 (高, 宽, 通道) |
| 4D | 4D张量 | batch of images (批次, 通道, 高, 宽) |
为什么叫"张量"而不是"数组"?
张量和数组在数据结构上是一样的,但张量有两个关键特性:
- 可以在GPU上运算(NumPy数组只能在CPU上)
- 支持自动求导(自动计算梯度)
所以 张量 = NumPy数组 + GPU支持 + 自动求导,这就是深度学习框架的核心数据结构。
张量创建
import torch
# 从Python列表创建
t1 = torch.tensor([1, 2, 3])
# 创建特定形状的张量
zeros = torch.zeros(3, 4) # 全0矩阵,shape: (3, 4)
ones = torch.ones(2, 3) # 全1矩阵
rand = torch.randn(2, 3) # 标准正态分布随机数(最常用于初始化权重)
# 从NumPy转换
import numpy as np
np_arr = np.array([1, 2, 3])
tensor = torch.from_numpy(np_arr) # 共享内存!修改一方会影响另一方
张量运算——神经网络的基本操作
# ========== 矩阵乘法(最重要的操作!)==========
a = torch.randn(3, 4) # shape: (3, 4)
b = torch.randn(4, 5) # shape: (4, 5)
c = a @ b # shape: (3, 5),等价于 torch.matmul(a, b)
# 维度规则:(3, 4) @ (4, 5) = (3, 5),中间维度必须相同
# ========== 线性变换 y = Wx + b ==========
x = torch.randn(1, 784) # 输入:1个784维样本
W = torch.randn(784, 256) # 权重矩阵
b = torch.randn(1, 256) # 偏置
h = x @ W + b # 隐藏层输出:shape (1, 256)
# 这就是神经网络中最基本的操作!每一层都在做 output = input @ weight + bias
# ========== 激活函数 ==========
relu_output = torch.relu(h) # ReLU: max(0, x)
sigmoid_output = torch.sigmoid(h) # Sigmoid: 1/(1+e^(-x))
softmax_output = torch.softmax(h, dim=1) # Softmax: 转为概率分布
# ========== 形状操作(在Transformer中大量使用)==========
x = torch.randn(2, 3, 4) # shape: (2, 3, 4)
x.reshape(6, 4) # 改变形状为 (6, 4)
x.permute(2, 0, 1) # 转置维度:(2,3,4) → (4,2,3)
x.unsqueeze(0) # 在第0维增加一个维度:(2,3,4) → (1,2,3,4)
x.squeeze() # 去掉大小为1的维度
1.5 PyTorch自动求导与训练循环
自动求导(Autograd)——PyTorch的"杀手锏"
没有自动求导的时代:研究者需要手推每个模型的梯度公式,然后手动写代码实现。一个新模型可能需要几周时间来推导和验证梯度。
有了自动求导:只需要定义前向传播,PyTorch自动帮你计算梯度。新模型的实现时间从几周缩短到几小时。
import torch
# requires_grad=True 告诉PyTorch:"请追踪这个张量的所有操作"
x = torch.tensor(2.0, requires_grad=True)
y = x**3 + 2*x**2 + x # PyTorch在背后构建了计算图
y.backward() # 自动反向传播,计算梯度
print(x.grad) # dy/dx = 3x² + 4x + 1 = 12 + 8 + 1 = 21
PyTorch自动求导的工作原理:
- 前向传播时:PyTorch记录每一步操作,构建"计算图"
- 调用
.backward()时:从输出节点开始,沿计算图反向传播 - 每个节点:通过链式法则计算梯度
- 结果:存储在每个叶子节点的
.grad属性中
类比:前向传播像"记账"(记录每一步操作),反向传播像"审计"(追溯每一步的贡献)
完整的PyTorch训练循环——最重要的模板
这个模板适用于所有PyTorch模型! 无论多复杂的模型(CNN、RNN、Transformer),核心都是这个循环。
import torch
import torch.nn as nn
# ===== 第1步:定义模型 =====
model = nn.Linear(1, 1) # 简单线性回归 y = wx + b
# ===== 第2步:定义损失函数和优化器 =====
criterion = nn.MSELoss() # 均方误差损失
optimizer = torch.optim.SGD(model.parameters(), lr=0.01) # 随机梯度下降
# ===== 第3步:准备数据 =====
x_train = torch.randn(100, 1) # 100个样本
y_train = 3 * x_train + 2 + torch.randn(100, 1) * 0.1 # y = 3x + 2 + 噪声
# ===== 第4步:训练循环(核心!)=====
for epoch in range(1000):
# 4a. 前向传播:用当前参数计算预测值
y_pred = model(x_train)
# 4b. 计算损失:预测值和真实值的差距
loss = criterion(y_pred, y_train)
# 4c. 反向传播:计算每个参数的梯度
optimizer.zero_grad() # 清零梯度(重要!PyTorch默认累加梯度)
loss.backward() # 自动计算梯度
# 4d. 更新参数:沿着梯度的反方向走一步
optimizer.step()
if epoch % 100 == 0:
print(f'Epoch {epoch}, Loss: {loss.item():.4f}')
# ===== 第5步:查看学到的参数 =====
print(f'w = {model.weight.item():.2f}') # 应接近3
print(f'b = {model.bias.item():.2f}') # 应接近2
为什么要 optimizer.zero_grad()?
PyTorch的设计哲学:梯度默认是累加的(而不是覆盖的)。为什么要这样设计?某些场景下需要"累积多个batch的梯度"再更新一次。
但大多数情况下,你需要在每次更新前手动清零:
optimizer.zero_grad() # 清零
loss.backward() # 计算新梯度
optimizer.step() # 更新参数
如果不清零,梯度会越来越大 → 参数更新过猛 → 训练不稳定。
模块二:CNN与图像处理
2.1 卷积神经网络原理
为什么全连接网络处理图像效果不好?
问题:参数爆炸
一张 $224 \times 224$ 的彩色图片 = $224 \times 224 \times 3 = 150{,}528$ 个像素。如果用全连接层,第一个隐藏层有1000个神经元,需要 $150{,}528 \times 1000 = 1.5$ 亿个参数!
问题:
- 计算量巨大(1.5亿次乘法,每张图片!)
- 显存不够(1.5亿个float32 = 600MB,仅第一层!)
- 容易过拟合(参数太多,模型容易"死记硬背"图片)
核心洞察:图像有两大特性,全连接网络没有利用
- 局部性(Locality):一个像素主要和它周围的像素相关,和远处的像素关系不大 → 不需要每个神经元连接所有150,528个输入!
- 平移不变性(Translation Invariance):猫在图片左上角和右下角,识别方法是一样的 → 同一个特征检测器应该能用在图片的任何位置!
卷积操作——局部感知 + 参数共享
卷积核是什么? 一个小的权重矩阵(比如3×3),像一个"滑动窗口"在图片上滑动。
卷积核在左上角位置的计算($\odot$ 表示逐元素相乘,然后求和):
$$ \begin{bmatrix} 1 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 1 \end{bmatrix} \odot \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{bmatrix} = 1+0+1+0+1+0+0+0+1 = 4 $$卷积的三大优势:
- 局部感知:每个输出只看 $3 \times 3$ 的局部区域(不是全部150,528个像素) → 参数量:$3 \times 3 = 9$ 个(vs 全连接的150,528个!)
- 参数共享:同一个卷积核用在图片的所有位置 → 不管图片多大,参数量都是 $3 \times 3 = 9$ 个
- 平移不变性:因为参数共享,猫在任何位置都能被同一个卷积核检测到
类比:卷积核就像一个"手电筒",你在黑暗中用手电筒照亮图片的一小块区域,检查那里有没有你想要的特征(比如边缘),然后移动手电筒到下一个位置,重复检查。
卷积神经网络的核心组件
各层的作用详解:
- 卷积层(Conv2d):用多个不同的卷积核提取不同的特征。第1个卷积核可能检测"竖线",第2个可能检测"横线",第3个可能检测"斜线"。输出叫"特征图"(Feature Map),每个通道对应一个卷积核的检测结果。
- 激活函数(ReLU):在每个卷积层后面加一个非线性变换,让网络能够学习更复杂的模式。
- 池化层(MaxPool):把特征图缩小(比如2×2的MaxPool把尺寸减半),取每个2×2区域的最大值。作用是减少计算量,增强平移不变性。
- 全连接层(Linear):把最后的特征图展平成一维向量,做最终的分类决策。
一个CNN的完整数据流(以28×28灰度图为例):
- 输入:(1, 28, 28) ← 1通道,28×28像素
- ↓ Conv2d(1→32, 3×3) → (32, 28, 28) ← 32个特征图
- ↓ MaxPool(2×2) → (32, 14, 14) ← 尺寸减半
- ↓ Conv2d(32→64, 3×3) → (64, 14, 14)
- ↓ MaxPool(2×2) → (64, 7, 7)
- ↓ Flatten → (3136)
- ↓ Linear(3136→128) → (128)
- ↓ Linear(128→10) → (10) ← 输出10个类别的概率
经典CNN模型演进——从浅到深的进化
| 模型 | 年份 | 层数 | 关键创新 | ImageNet错误率 |
|---|---|---|---|---|
| LeNet-5 | 1998 | 5层 | 首个成功的CNN | (手写数字) |
| AlexNet | 2012 | 8层 | ReLU + Dropout + GPU | 16.4% |
| VGG-16 | 2014 | 16层 | 小卷积核堆叠(3×3) | 7.3% |
| GoogLeNet | 2014 | 22层 | Inception模块 | 6.7% |
| ResNet-152 | 2015 | 152层 | 残差连接 | 3.6%(超越人类!) |
ResNet的核心创新——残差连接
问题:层数太深反而效果变差(不是过拟合,而是训练困难——梯度消失/爆炸)
解决:残差连接(Skip Connection)
$$ \text{传统层:} y = F(x) \quad \text{(网络需要从零学习 } F(x) = y \text{)} $$$$ \text{残差层:} y = F(x) + x \quad \text{(网络只需要学习"改进量" } F(x) = y - x \text{)} $$类比:传统层像"从白纸画一幅画"——很难;残差层像"在原图上做修改"——容易得多!
为什么残差连接能解决梯度消失?
反向传播时:
$$ \text{传统层:} \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial F}{\partial x} \quad \text{(梯度经过F,可能消失)} $$$$ \text{残差层:} \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \left(\frac{\partial F}{\partial x} + 1\right) \quad \text{(多了一个+1的"梯度高速公路")} $$即使 $\frac{\partial F}{\partial x}$ 接近0,梯度仍然可以通过"+1"这条路径直接传回去!这就是为什么ResNet可以训练152层甚至更深的网络。
2.2 PyTorch实现CNN
import torch.nn as nn
class SimpleCNN(nn.Module):
def __init__(self):
super(SimpleCNN, self).__init__()
# 卷积部分:提取特征
self.features = nn.Sequential(
nn.Conv2d(1, 32, kernel_size=3, padding=1),
nn.ReLU(),
nn.MaxPool2d(2),
nn.Conv2d(32, 64, kernel_size=3, padding=1),
nn.ReLU(),
nn.MaxPool2d(2),
)
# 分类部分:全连接层
self.classifier = nn.Sequential(
nn.Flatten(),
nn.Linear(64 * 7 * 7, 128),
nn.ReLU(),
nn.Linear(128, 10),
)
def forward(self, x):
x = self.features(x)
x = self.classifier(x)
return x
# 使用
model = SimpleCNN()
input_img = torch.randn(1, 1, 28, 28) # 1张28×28灰度图
output = model(input_img) # shape: (1, 10)
2.3 数据加载——Dataset与DataLoader
为什么需要Dataset和DataLoader?
问题:训练集可能有几百万张图片,不可能一次性全部加载到内存(RAM不够)。
解决方案:
- Dataset:定义"数据在哪里,如何获取第i个样本"。类比:菜谱(告诉厨师每道菜怎么做)。
- DataLoader:定义"如何把多个样本打包成一个batch",并负责多进程加载。类比:传菜员(把多道菜一起端上来)。
from torch.utils.data import Dataset, DataLoader
class MyDataset(Dataset):
def __init__(self, data, labels):
self.data = data
self.labels = labels
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
return self.data[idx], self.labels[idx]
dataset = MyDataset(data, labels)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4)
for batch_data, batch_labels in dataloader:
predictions = model(batch_data)
loss = criterion(predictions, batch_labels)
# ...
2.4 混合精度训练
什么是混合精度训练?
类比:用计算器的精度选择
- float32(32位浮点数)= 高精度计算器 → 结果精确,但计算慢、占内存大
- float16(16位浮点数)= 低精度计算器 → 结果略有误差,但计算快、占内存小
- 混合精度 = 大部分计算用低精度(快),关键计算用高精度(准)
为什么能工作? 神经网络训练中,95%的计算是矩阵乘法 → 用float16足够精确;5%的关键操作(损失计算、梯度累积)→ 保留float32。结果:显存节省约50%,训练速度提升2-3倍,精度几乎无损!
from torch.cuda.amp import autocast, GradScaler
scaler = GradScaler()
for batch in dataloader:
optimizer.zero_grad()
with autocast(): # 自动选择精度
output = model(batch)
loss = criterion(output, target)
scaler.scale(loss).backward() # 缩放损失后反向传播
scaler.step(optimizer) # 更新参数
scaler.update() # 更新缩放因子
2.5 深度学习进阶——正则化与优化技巧
Dropout——训练时随机"丢弃"神经元
self.dropout = nn.Dropout(p=0.5) # 训练时50%的神经元会被随机置零
类比:期末考试随机缺席。想象一个班级有20个学生,期末考试时随机让一半学生缺席。这迫使每个学生都必须自己学会知识,不能依赖抄别人的答案。同样,Dropout迫使每个神经元独立学习有用的特征,不能依赖其他神经元。
效果:减少"协同适应"(co-adaptation)。推理时不用Dropout,但所有权重乘以 $(1-p)$ 来补偿。
BatchNorm——加速训练的"万金油"
self.bn = nn.BatchNorm1d(256) # 对256维的特征做归一化
BatchNorm在做什么?
对每个mini-batch的数据做标准化:
- 计算这个batch的均值 $\mu$ 和方差 $\sigma^2$
- 标准化:$\hat{x} = (x - \mu) / \sqrt{\sigma^2 + \varepsilon}$
- 缩放和平移:$y = \gamma \cdot \hat{x} + \beta$($\gamma$ 和 $\beta$ 是可学习的参数)
为什么要缩放和平移?因为标准化后数据分布被强制为 $N(0,1)$,可能损失有用信息。$\gamma$ 和 $\beta$ 让网络自己学到"最优的分布"。
为什么BatchNorm有效?
- 减少内部协变量偏移:每层输入的分布稳定了,学习更容易
- 允许更大学习率:稳定的梯度 → 可以走更大的步
- 轻微正则化:因为每个batch的均值和方差有随机性,相当于加了噪声
- 减少对初始化的敏感性:即使初始权重不太好,BatchNorm也能帮忙修正
模块三:RNN与序列模型
3.1 序列数据与文本预处理
什么是序列数据?
核心特征:顺序很重要,当前值依赖于之前的值
- 文本:“我 爱 大 模 型” → “大 模 型 爱 我” 意思完全不同!
- 股票:[100, 102, 101, 105] → 今天的股价和昨天的股价相关
- 音频:[0.1, 0.3, 0.5, …] → 声音是随时间变化的信号
全连接网络的问题:它把输入当作独立的,不考虑顺序。CNN的问题:它只看局部窗口,不能建模长距离依赖。→ 需要一种新的网络结构来处理序列数据 → RNN。
文本预处理流程
- 分词(Tokenize):“I love AI” → [“I”, “love”, “AI”]
- 建立词表(Vocabulary):
{"I": 0, "love": 1, "AI": 2, "<PAD>": 3, "<UNK>": 4},词表把每个词映射到一个唯一的整数ID - 转为数字序列:[“I”, “love”, “AI”] → [0, 1, 2]
- 填充/截断(Padding):不同句子长度不同,需要统一长度。短的用
<PAD>填充,长的截断。[0, 1, 2] → [0, 1, 2, 3, 3](填充到长度5) - 送入模型:模型的输入是数字序列 [0, 1, 2, 3, 3]
3.2 RNN原理与实现
为什么需要RNN?
类比:读书。你读一本书时,理解当前这句话需要记住之前的内容。RNN做的同样的事——用"隐藏状态"记住之前的信息,辅助理解当前的输入。
$$ \begin{aligned} h_1 &= \tanh(W_h \cdot h_0 + W_x \cdot x_1 + b) \\ h_2 &= \tanh(W_h \cdot h_1 + W_x \cdot x_2 + b) \\ h_3 &= \tanh(W_h \cdot h_2 + W_x \cdot x_3 + b) \end{aligned} $$- $h_1$:读第1个词,产生记忆
- $h_2$:读第2个词,结合记忆 $h_1$ 产生 $h_2$
- $h_3$:读第3个词,结合记忆 $h_2$ 产生 $h_3$
$h_3$ 包含了前3个词的信息!
关键点:每个时间步使用相同的权重($W_h, W_x$)——这就是"参数共享"。不管句子有多长,参数量是固定的。同一个RNN Cell可以处理任意长度的序列。
RNN的展开形式——理解RNN的关键
虽然RNN看起来只有一个Cell,但展开后就像一个很深的网络:
- $x_1$ → [RNN Cell] → $h_1$
- $x_2$ → [RNN Cell] → $h_2$(共享权重)
- $x_3$ → [RNN Cell] → $h_3$(共享权重)
每个Cell共享同一组权重,但每个时间步有不同的输入和输出。
RNN的致命缺陷——梯度消失(用数字说明)
反向传播时,梯度需要从 $h_T$ 一路传回 $h_1$:
$$ \frac{\partial L}{\partial h_1} = \frac{\partial L}{\partial h_T} \cdot \frac{\partial h_T}{\partial h_{T-1}} \cdot \frac{\partial h_{T-1}}{\partial h_{T-2}} \cdots \frac{\partial h_2}{\partial h_1} $$问题:每一步的 $\frac{\partial h_t}{\partial h_{t-1}}$ 的最大值约等于 $W_h$ 的谱范数。如果这个值 < 1(比如0.9):
- $0.9^{10} \approx 0.35$(10步后梯度衰减到35%)
- $0.9^{50} \approx 0.005$(50步后梯度衰减到0.5%!)
- $0.9^{100} \approx 0.00003$(100步后梯度几乎为0!)
结果:远处的信息无法影响当前的参数更新。RNN只能"记住"最近几个词的信息 → RNN学不到长距离依赖!
类比:传话游戏。10个人排成一排传话。第1个人说"明天下午3点开会",传到第10个人可能变成"后天中午吃饭"。信息在传递过程中逐级失真——这就是梯度消失的形象比喻。
LSTM和GRU的解决方案:给信息一条"直达通道",不让它被逐级衰减。
3.3 LSTM——解决长期依赖的"神器"
LSTM的核心思想——细胞状态 + 三个门
类比:你的笔记本
想象你有一个笔记本(细胞状态),每天要做三件事:
- 擦掉不再重要的旧笔记(遗忘门)
- 写入今天重要的新信息(输入门)
- 决定今天给老板看哪些内容(输出门)
细胞状态 $C_t$:一条"信息高速公路",信息可以无损地流过。
三个门的公式:
$$ \begin{aligned} \text{遗忘门:} \quad f_t &= \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \quad \text{(0到1的值)} \\ \text{输入门:} \quad i_t &= \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \quad \text{(0到1的值)} \\ \text{候选值:} \quad \tilde{C}_t &= \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \quad \text{(-1到1的值)} \\ \text{输出门:} \quad o_t &= \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \quad \text{(0到1的值)} \end{aligned} $$更新公式:
$$ C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t \quad \text{(关键!是加法,不是乘法)} $$$$ h_t = o_t \odot \tanh(C_t) $$完整数值示例:
假设处理句子"The cat, which is very cute, sat on the mat"。当处理到"sat"时,需要知道主语是"cat"(中间隔了4个词)。
- 遗忘门:看到"sat"时,$f_t \approx [1, 1, 0.01, \ldots]$ → 保留"cat"的信息,丢弃"which is very cute"的细节
- 输入门:看到"sat"是一个动词,$i_t \approx [0, 0, 0.9, \ldots]$ → 写入"sat"的信息
- 结果:细胞状态中同时保存了"cat"(很久之前的信息)和"sat"(刚看到的信息)→ LSTM知道"cat sat on the mat",理解了主谓关系
为什么LSTM能解决梯度消失?
数学解释:
普通RNN的梯度链:$\frac{\partial h_t}{\partial h_{t-1}} = W \cdot \text{diag}(\sigma'(z))$ → 连乘,指数衰减。
LSTM的细胞状态梯度:$\frac{\partial C_t}{\partial C_{t-1}} = f_t$(遗忘门的值)
当 $f_t \approx 1$ 时:$\frac{\partial C_t}{\partial C_{t-1}} \approx 1$ → 梯度无损传递!
这就是LSTM的"梯度高速公路"——只要遗忘门接近1,信息就能无损地流过任意长的距离。
类比:传送带 vs 口口相传。普通RNN像"口口相传":信息逐级传递,每传一次就失真一点。LSTM像"传送带":信息放在传送带上直接送到目的地,不会失真。
3.4 GRU——LSTM的"简化版"
GRU的设计哲学:用更少的参数达到类似的效果
- LSTM(3个门 + 候选细胞状态 → 4个线性变换):遗忘门 $f_t$ + 输入门 $i_t$ + 输出门 $o_t$ + 候选值 $\tilde{C}_t$
- GRU(2个门 → 3个线性变换):重置门 $r_t$(类似"输入门"的一部分)+ 更新门 $z_t$(合并了遗忘门和输入门)
GRU的公式:
$$ \begin{aligned} \text{重置门:} \quad r_t &= \sigma(W_r \cdot [h_{t-1}, x_t]) \\ \text{更新门:} \quad z_t &= \sigma(W_z \cdot [h_{t-1}, x_t]) \\ \text{候选状态:} \quad \tilde{h}_t &= \tanh(W \cdot [r_t \odot h_{t-1}, x_t]) \\ \text{最终状态:} \quad h_t &= (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t \end{aligned} $$注意最后一行:$(1-z_t) \odot h_{t-1}$ 保留多少旧记忆(当 $z_t=0$ 时完全保留),$z_t \odot \tilde{h}_t$ 添加多少新信息(当 $z_t=1$ 时完全更新)。$z_t$ 同时控制了"遗忘"和"输入",这就是GRU比LSTM少一个门的原因。
LSTM vs GRU 如何选择?
| 特性 | LSTM | GRU |
|---|---|---|
| 门的数量 | 3个门 | 2个门 |
| 参数量 | 更多 | 更少(约少25%) |
| 训练速度 | 较慢 | 较快 |
| 长序列效果 | 略好 | 略差 |
| 数据量少时 | 可能过拟合 | 更好(参数少) |
实践建议:
- 先试GRU(更快),效果不好再换LSTM
- 如果序列很长(1000+步),LSTM通常更好
- 如果数据量很少,GRU更好(不容易过拟合)
3.5 深度/双向RNN
深度RNN——多层堆叠
类比CNN的层次化特征提取:
- CNN:边缘 → 纹理 → 形状 → 物体
- 深度RNN:词法 → 语法 → 语义 → 情感
第3层:$h_{31} \to h_{32} \to h_{33} \to \cdots$ ← 学习最高层特征(语义、情感) 第2层:$h_{21} \to h_{22} \to h_{23} \to \cdots$ ← 学习中层特征(语法结构) 第1层:$h_{11} \to h_{12} \to h_{13} \to \cdots$ ← 学习底层特征(词法信息) 输入:$x_1, x_2, x_3$
每层的输出作为上一层的输入,层层抽象。
双向RNN——同时看过去和未来
问题:有些任务需要同时理解前后文。示例:“我去银行存钱” vs “我在河岸散步”——“银行"的含义取决于后面的"存钱”。只看左边无法确定"银行"是金融机构还是河岸。
双向RNN的解决方案:
- 正向:$\vec{h}_1 \to \vec{h}_2 \to \vec{h}_3 \to \vec{h}_4$(从左到右阅读)
- 反向:$\overleftarrow{h}_1 \leftarrow \overleftarrow{h}_2 \leftarrow \overleftarrow{h}_3 \leftarrow \overleftarrow{h}_4$(从右到左阅读)
- 输出:$[\vec{h}_i, \overleftarrow{h}_i]$ — 每个位置同时包含"前文信息"和"后文信息"
应用场景:命名实体识别、文本分类、BERT的预训练。 不能用于:语言模型、文本生成(因为生成时看不到"未来"的词)。
模块四:词嵌入与Seq2Seq
4.1 Word2Vec——让计算机"理解"词义
Distributional Hypothesis(分布假说)——词嵌入的理论基础
核心思想:一个词的含义由它的上下文决定
语言学家John Rupert Firth在1957年提出:“You shall know a word by the company it keeps."(你可以通过一个词的"同伴"来认识它)
示例:
- “我养了一只__,它很可爱” → 空格处大概率是"猫"或"狗”
- “我开了一辆__去上班” → 空格处大概率是"车"
→ 如果两个词经常出现在相似的上下文中,它们的含义就相似。“猫"和"狗"的上下文相似(可爱、养、宠物)→ 它们的向量应该接近。
分布假说是所有词嵌入方法(Word2Vec、GloVe、FastText)的理论基础:
- Word2Vec:通过预测上下文来学习词义(隐式利用分布假说)
- GloVe:通过统计共现矩阵来学习词义(显式利用分布假说)
- FastText:通过子词的上下文来学习词义(分布假说的扩展)
类比:分布假说 = “物以类聚,人以群分”。经常在一起出现的词,含义相似。词嵌入就是把这种"相似性"用向量距离来表达。
分布假说的局限:
- 多义词问题:“苹果"在不同上下文中含义不同。Word2Vec给"苹果"一个固定的向量,无法区分。后来ELMo、BERT通过上下文相关的词向量解决了这个问题。
- 反义词问题:“好"和"坏"经常出现在相似的上下文中(“这个东西很__” → 好/坏都可能),但它们含义相反!分布假说无法区分反义词(这是词嵌入的已知局限)。
从独热编码到词嵌入
独热编码的问题:假设词表有50,000个词,“猫” = [1, 0, 0, …, 0],“狗” = [0, 1, 0, …, 0]。$\text{距离}(\text{猫}, \text{狗}) = \text{距离}(\text{猫}, \text{汽车}) = \sqrt{2}$。→ 无法表达"猫和狗更相似"这个事实!独热编码没有语义信息。
词嵌入的解决方案:用一个低维向量(比如300维)来表示每个词,语义相似的词有相似的向量。$\text{距离}(\text{猫}, \text{狗}) \ll \text{距离}(\text{猫}, \text{汽车})$。→ 词嵌入能表达语义关系!
Word2Vec的两种模式
- CBOW(连续词袋)——用上下文预测中心词:输入:[我, , 大, 模型],目标:预测 = “爱”。类比:完形填空。
- Skip-gram——用中心词预测上下文:输入:爱,目标:预测[我, 大, 模型]。类比:看一个词,猜它周围会出现什么词。
Word2Vec的训练过程(Skip-gram简化版):
- 准备训练数据:从大量文本中提取(中心词, 上下文词)配对。句子"我爱大模型” → (“爱”, “我”), (“爱”, “大”), (“爱”, “模型”)
- 构建一个简单的神经网络:输入层 → 嵌入层 → 输出层 → softmax → 预测上下文词
- 训练这个网络:最大化 $P(\text{上下文词} | \text{中心词})$
- 训练完成后,嵌入层的权重就是词向量!每个词对应嵌入矩阵的一行 → 300维向量
Word2Vec的经典发现——词向量的"魔法”
$$ \text{king} - \text{man} + \text{woman} \approx \text{queen} $$(国王的向量 - 男人的向量 + 女人的向量 ≈ 女王的向量)
这意味着词嵌入学到了:
- 性别关系:man→woman 类似于 king→queen
- 时态关系:walking→walked 类似于 swimming→swam
- 地理关系:Paris→France 类似于 Rome→Italy
这些关系完全是自动从文本中学到的,没有任何人工标注!
4.2 GloVe、FastText与ELMo
GloVe——全局统计 + 局部上下文
Word2Vec只看局部上下文窗口(比如前后5个词),GloVe利用全局共现矩阵(统计整个语料库中所有词对的共现次数)。
GloVe的核心思想:如果词i和词j经常一起出现 → 它们的向量应该接近。“冰"和"水"经常共现 → 向量接近。“冰"和"蒸汽"的共现模式类似但有差异 → 向量差反映了"固态vs气态"的关系。效果:在类比任务上,GloVe通常优于Word2Vec。
FastText——子词嵌入
Word2Vec/GloVe的问题:每个词是一个整体,遇到没见过的词(OOV)就无法处理。
FastText的解决方案:把词拆成字符n-gram。“where” → [”<wh”, “whe”, “her”, “ere”, “re>"]。“where"的向量 = 所有子词向量的和。
优势:
- 处理未登录词(OOV):即使没见过"unhappiness”,也能用"un”+“happi”+“ness"的子词向量组合
- 利用形态学信息:词根、前缀、后缀都有含义
- 对中文也有用:字级别的n-gram能捕获偏旁部首的信息
ELMo——上下文相关的词向量(BERT的前身)
Word2Vec/GloVe/FastText的共同问题:同一个词在所有语境下的向量都相同!
- “苹果很好吃"中的"苹果” = [0.2, 0.8, …](应该是"水果"的意思)
- “苹果发布新手机"中的"苹果” = [0.2, 0.8, …](应该是"公司"的意思)
- → 向量完全一样!这不合理。
ELMo的解决方案:用双向LSTM,根据上下文动态生成词向量。
- “苹果很好吃” → 双向LSTM → “苹果"的向量偏向"水果”
- “苹果发布新手机” → 双向LSTM → “苹果"的向量偏向"公司”
核心思想:词的含义取决于上下文!这就是后来BERT的核心思想——上下文相关的词表示。
4.3 Seq2Seq与Encoder-Decoder架构
Seq2Seq——序列到序列
应用场景:
- 机器翻译:“I love AI” → “我爱人工智能”
- 文本摘要:“很长的文章…” → “一句话摘要”
- 对话系统:“你好吗?” → “我很好,谢谢!”
架构:
- Encoder(编码器):读取输入序列,压缩成一个固定长度的向量
- Decoder(解码器):从这个向量生成输出序列
“I” → [Encoder] → 向量 $c$ → [Decoder] → “我” “love” → [Encoder] → 向量 $c$ → [Decoder] → “爱” “AI” → [Encoder] → 向量 $c$ → [Decoder] → “人工智能”
Encoder用RNN/LSTM逐词读入,最后一个隐藏状态就是"语义向量”。Decoder用另一个RNN/LSTM从语义向量逐词生成输出。
Seq2Seq的问题——信息瓶颈
问题:整个输入序列被压缩成一个固定长度的向量(比如256维)。如果输入有100个词,256维要容纳100个词的全部信息 → 太拥挤了!
类比:把一本书的全部内容压缩成一句话 → 一定会丢失大量信息。后果:句子越长,翻译质量越差。
4.4 注意力机制——让模型学会"关注”
注意力的核心思想——不要压缩,要"关注"
类比:同声传译
- Seq2Seq的做法:先把整本书读完记住,然后闭着眼睛翻译 → 信息量太大,记不住
- 注意力的做法:翻译每个词时,回头看原文的相关部分 → 每一步都"关注"最相关的部分
注意力的三步计算:
假设编码器输出了4个隐藏状态 $[h_1, h_2, h_3, h_4]$,解码器当前状态是 $s_t$。
Step 1:计算注意力分数(“每个位置和我有多相关?")
$$ \text{score}_i = s_t^T \cdot h_i \quad \text{(内积越大,越相关)} $$Step 2:Softmax归一化(“把分数变成概率”)
$$ \text{attention\_weights} = \text{softmax}(\text{scores}) $$Step 3:加权求和(“按重要性混合信息”)
$$ \text{context} = \sum_i \text{attention\_weights}_i \cdot h_i = 0.1 \cdot h_1 + 0.8 \cdot h_2 + 0.05 \cdot h_3 + 0.05 \cdot h_4 $$主要信息来自 $h_2$(最相关的位置)。这个context向量就是"注意力的输出”——它聚合了编码器所有位置的信息,但重点关注了最相关的部分。
多头注意力(Multi-Head Attention)——从多个角度看
单头注意力:只用一种方式计算相关性。多头注意力:用多种方式并行计算不同类型的相关性。
类比:你和朋友看同一张照片。你关注颜色,朋友关注构图,另一个朋友关注内容。每个人从不同角度"关注"同一张照片,综合所有人的观察才能全面理解。
多头注意力同理:
- Head 1 可能学到语法关系(主语-谓语)
- Head 2 可能学到语义关系(同义词)
- Head 3 可能学到位置关系(相邻词)
所有头的结果拼接起来 → 全面的语义表示。
这就是Transformer的核心组件,也是GPT、BERT的基础。
📚 推荐补充资源
| 知识点 | 推荐资源 | 说明 |
|---|---|---|
| 神经网络 | 3Blue1Brown《神经网络》系列 | 最直观的神经网络可视化教程 |
| 反向传播 | Andrej Karpathy《Yes you should understand backprop》 | 反向传播的直觉讲解 |
| PyTorch | PyTorch官方教程 | 跟着做一遍就能上手 |
| CNN | CS231n(斯坦福计算机视觉课程) | CNN的经典课程 |
| RNN/LSTM | Chris Olah《Understanding LSTM》 | 图解LSTM的经典文章 |
| 注意力机制 | Jay Alammar《The Illustrated Seq2Seq》 | 图解Seq2Seq和注意力 |
| Word2Vec | Jay Alammar《Illustrated Word2Vec》 | 图解Word2Vec |