本文由AI根据课件生成。
1. 机器学习概述
1.1 什么是机器学习
机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。
- Tom Mitchell定义:一个计算机程序从经验E中学习,对于某类任务T和性能度量P,如果它在T上的性能(由P衡量)随着经验E的提高而提高,则称该程序从经验E中学习。
1.2 主要研究问题
按学习方式分类:
- 监督学习:训练数据带有标签,包括分类(离散输出)和回归(连续输出)
- 无监督学习:训练数据无标签,包括聚类和降维
- 半监督学习:同时使用少量有标记样本和大量未标记样本
- 强化学习:通过与环境交互学习策略
1.3 过拟合与欠拟合
- 欠拟合:模型复杂度低,无法拟合训练数据,训练误差和测试误差都很大(高偏差、低方差)
- 过拟合:模型复杂度高,过度拟合训练数据,训练误差小但测试误差大(低偏差、高方差)
泛化误差的偏差-方差分解:
E(f;D)=noise2+bias2(x)+var(x)
缓解过拟合的方法:
- 增加训练样本数量
- 正则化:在对目标函数中加入对权值向量的惩罚项
E~(w)=21n=1∑N(y(xn,w)−tn)2+2λ∥w∥2
2. 数学基础
2.1 概率统计基础
- 联合概率:A和B共同发生的概率 P(A,B)
- 条件概率:B已发生条件下A发生的概率
P(A∣B)=P(B)P(A,B)
- 乘法公式:
P(A1A2...An)=P(A1)P(A2∣A1)...P(An∣A1...An−1)
- 全概率公式:设 A1,A2,...,An 两两互不相容,则
P(B)=k=1∑nP(Ak)P(B∣Ak)
- 贝叶斯公式:
P(B∣A)=P(A)P(B)P(A∣B)=∑kP(Bk)P(A∣Bk)P(B)P(A∣B)
例题:某人外出旅游两天,第一天下雨概率0.6,第二天下雨概率0.3,两天都下雨概率0.1。
求:(1) 第一天下雨而第二天不下雨的概率;(2) 至少有一天下雨的概率。
解:设 Ai 表示第i天下雨。
- (1) P(A1Aˉ2)=P(A1)−P(A1A2)=0.6−0.1=0.5
- (2) P(A1∪A2)=P(A1)+P(A2)−P(A1A2)=0.6+0.3−0.1=0.8
2.2 随机变量与分布
- 期望:E(X)=∑ixipi(离散),E(X)=∫−∞+∞xp(x)dx(连续)
- 方差:D(X)=E[(X−E(X))2]=E(X2)−[E(X)]2
- 协方差:cov(X,Y)=E[(X−E(X))(Y−E(Y))]
- 相关系数:ρXY=D(X)D(Y)cov(X,Y)
- 高斯分布:
p(x∣μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
2.3 概率密度函数估计
最大似然估计(MLE):
假设样本 X={x1,...,xN} 独立同分布,似然函数:
l(θ)=i=1∏Np(xi∣θ)
对数似然函数:
H(θ)=lnl(θ)=i=1∑Nlnp(xi∣θ)
求解:∂θ∂H=0
例题:单变量正态分布,已知 θ=[μ,σ2],求MLE。
解:
H(μ,σ2)=i=1∑Nlnp(xi∣μ,σ2)=−2Nln(2πσ2)−2σ21i=1∑N(xi−μ)2
令偏导为0:
∂μ∂H=σ21i=1∑N(xi−μ)=0⇒μ^=N1i=1∑Nxi
∂σ2∂H=−2σ2N+2(σ2)21i=1∑N(xi−μ)2=0⇒σ^2=N1i=1∑N(xi−μ^)2
非参数估计-Parzen窗法:
p^(x)=N1i=1∑NVN1φ(hNx−xi)
其中 φ(⋅) 为窗函数,VN=hNd 为窗体积。
2.4 矩阵基础
- 迹:tr(A)=∑i=1naii
- 常用求导公式:
- ∂x∂(Ax)=AT
- ∂x∂(xTAx)=(A+AT)x
3. 模型评估与选择
3.1 数据集划分方法
- 留出法:随机划分为训练集和测试集
- k折交叉验证:将数据分为k个子集,轮流用k-1个训练,1个测试
- 留一法:k折交叉验证的特例,k等于样本总数
- 自助法:有放回抽样,约36.8%样本不被抽到作为测试集
3.2 性能度量
回归任务:
- 均方误差:E(f;D)=N1∑i=1N(f(xi)−yi)2
- 平均绝对误差:E(f;D)=N1∑i=1N∣f(xi)−yi∣
分类任务:
- 错误率:E(f;D)=N1∑i=1NI(f(xi)=yi)
- 准确率:acc(f;D)=1−E(f;D)
混淆矩阵:
| 真实\预测 |
正例 |
负例 |
| 正例 |
TP |
FN |
| 负例 |
FP |
TN |
- 查准率:P=TP+FPTP
- 查全率:R=TP+FNTP
- F1度量:F1=P+R2×P×R
- Fβ度量:Fβ=β2×P+R(1+β2)×P×R
4. 贝叶斯决策理论
4.1 基本概念
- 先验概率 P(ωi):由历史数据得到的概率
- 类条件概率密度 p(x∣ωi):已知类别下样本的分布
- 后验概率 P(ωi∣x):利用最新数据修正后的概率
贝叶斯公式:
P(ωi∣x)=p(x)p(x∣ωi)P(ωi)=∑j=1cp(x∣ωj)P(ωj)p(x∣ωi)P(ωi)
4.2 最小错误率贝叶斯决策
目标:使平均错误率最小。
决策规则(多种等价形式):
- 若 P(ωi∣x)=maxj=1,...,cP(ωj∣x),则 x∈ωi
- 似然比形式:若 l(x)=p(x∣ω2)p(x∣ω1)>P(ω1)P(ω2),则 x∈ω1
- 对数似然比形式:若 h(x)=lnl(x)>lnP(ω1)P(ω2),则 x∈ω1
例题:细胞分类诊断。正常细胞 P(ω1)=0.9,异常细胞 P(ω2)=0.1。某细胞观察值x满足 p(x∣ω1)=0.2,p(x∣ω2)=0.4。判断该细胞类型。
解:
P(ω1∣x)=0.2×0.9+0.4×0.10.2×0.9=0.220.18=0.818
P(ω2∣x)=0.220.4×0.1=0.182
因为 P(ω1∣x)>P(ω2∣x),故判断为正常细胞。
4.3 最小风险贝叶斯决策
损失函数 λ(αi,ωj) 表示将实际为 ωj 的样本决策为 αi 的损失。
条件风险:
R(αi∣x)=j=1∑cλ(αi,ωj)P(ωj∣x)
决策规则:选择使条件风险最小的决策
α∗=argiminR(αi∣x)
例题:接上例,设损失函数表:
| 决策\状态 |
ω1 |
ω2 |
| α1 |
0 |
6 |
| α2 |
1 |
0 |
解:
R(α1∣x)=λ(α1,ω1)P(ω1∣x)+λ(α1,ω2)P(ω2∣x)=0×0.818+6×0.182=1.092
R(α2∣x)=1×0.818+0×0.182=0.818
因为 R(α2∣x)<R(α1∣x),故决策为异常细胞(α2)。
关系:最小错误率贝叶斯决策是0-1损失函数条件下的最小风险贝叶斯决策。
4.4 朴素贝叶斯决策
属性条件独立性假设:对于已知类别,假设所有属性相互独立。
决策规则:
y=argcmaxP(yc)j=1∏dP(xj∣yc)
先验概率估计:P^(yc)=∣D∣∣Dc∣
离散属性条件概率(拉普拉斯修正):
P^(xj∣yc)=∣Dc∣+Nj∣Dc,xj∣+1
连续属性:假设服从高斯分布 p(xj∣yc)∼N(μc,j,σc,j2)
5. 线性模型
5.1 线性回归
假设函数:f(x)=wTx+b,其中 x0=1 表示截距项。
目标函数(均方误差):
J(w)=21i=1∑N(f(xi)−yi)2
标准方程组(解析解):
w=(XTX)−1XTy
梯度下降法:
w:=w−α∇J(w)
其中梯度:∇J(w)=XT(Xw−y)
- 批处理梯度下降(BGD):每次用所有样本
- 随机梯度下降(SGD):每次用一个样本
5.2 逻辑回归
本质:用线性回归预测真实标记的对数几率。
Sigmoid函数:
σ(z)=1+e−z1
后验概率:
p(C1∣x)=σ(wTx)=1+e−wTx1
对数几率(logit):
ln1−pp=wTx
交叉熵误差函数:
E(w)=−n=1∑N{tnlnyn+(1−tn)ln(1−yn)}
梯度:
∇E(w)=n=1∑N(yn−tn)xn
多类问题Softmax函数:
p(Ck∣x)=∑jexp(aj)exp(ak)
5.3 线性判别函数
两类线性判别函数:g(x)=wTx+w0
- 若 g(x)>0,则 x∈ω1
- 若 g(x)<0,则 x∈ω2
Fisher准则:
寻找投影方向w,使Fisher准则函数最大化:
JF(w)=wTSwwwTSbw
其中 Sb 为类间散度矩阵,Sw 为类内散度矩阵。
解:w∗=Sw−1(m1−m2)
感知机准则:
对于线性可分问题,构造准则函数:
JP(a)=y∈YM∑(−aTy)
其中 YM 为被错分的样本集合。
梯度下降迭代公式:
a(k+1)=a(k)+ηy∈YM∑y
最小二乘准则:
误差向量:e=Ya−b
平方误差准则函数:
Js(a)=∥e∥2=∥Ya−b∥2
伪逆解:
a∗=(YTY)−1YTb=Y+b
6. 决策树
6.1 基本思想
采用自顶向下的递归方法,构造一棵由结点和有向边组成的树。
- 内部结点:表示一个属性或特征
- 叶结点:代表一种类别
- 目标:每个分支节点的样本尽可能属于同一类别(纯度越来越高)
6.2 信息论基础
信息熵:
H(D)=−c=1∑Cpclog2pc
条件熵:
H(D∣A)=n=1∑N∣D∣∣Dn∣H(Dn)
信息增益(ID3):
G(D,A)=H(D)−H(D∣A)
增益率(C4.5):
Gratio(D,A)=H(A)G(D,A)
其中 H(A)=−∑n=1N∣D∣∣Dn∣log2∣D∣∣Dn∣ 为属性A的固有值。
基尼指数(CART):
Gini(D)=1−c=1∑Cpc2=c=1∑Cc′=c∑pcpc′
属性A的基尼指数:
Gini(D,A)=n=1∑N∣D∣∣Dn∣Gini(Dn)
6.3 例题(西瓜分类)
数据集(部分):
| 编号 |
色泽 |
根蒂 |
敲声 |
纹理 |
脐部 |
触感 |
好瓜 |
| 1 |
青绿 |
蜷缩 |
浊响 |
清晰 |
凹陷 |
硬滑 |
是 |
| 2 |
乌黑 |
蜷缩 |
沉闷 |
清晰 |
凹陷 |
硬滑 |
是 |
| … |
… |
… |
… |
… |
… |
… |
… |
| 16 |
浅白 |
蜷缩 |
浊响 |
模糊 |
平坦 |
硬滑 |
否 |
计算信息熵:
H(D)=−(178log2178+179log2179)=0.998
以属性"色泽"为例计算条件熵:
- 青绿6个(3好3坏):H(D青绿)=−(63log263+63log263)=1.000
- 乌黑6个(4好2坏):H(D乌黑)=0.918
- 浅白5个(1好4坏):H(D浅白)=0.722
H(D∣色泽)=176×1.000+176×0.918+175×0.722=0.889
信息增益:
G(D,色泽)=0.998−0.889=0.109
类似计算:G(D,纹理)=0.381(最大),故选择"纹理"作为根节点划分属性。
6.4 剪枝处理
- 预剪枝:生成过程中,若划分不能带来泛化性能提升则停止划分
- 优势:降低过拟合风险,减少时间开销
- 劣势:可能导致欠拟合
- 后剪枝:生成完全树后,自底向上考察,若替换为叶节点能提升泛化性能则剪枝
- 优势:泛化性能一般优于预剪枝
- 劣势:训练时间开销大
6.5 连续值处理
对连续属性a,将N个取值排序 {a1,a2,...,aN},候选划分点集合:
Ta={2ai+ai+1∣1≤i≤N−1}
选择使信息增益最大的划分点:
G(D,a)=t∈TamaxG(D,a,t)
7. 支持向量机(SVM)
7.1 基本思想
寻找最优分类超平面,使训练集中的点距离分类面尽可能远,即分类间隔(Margin)最大。
7.2 线性可分SVM
优化目标:
w,bmin21∥w∥2
s.t.tn(wTxn+b)≥1,n=1,...,N
拉格朗日函数:
L(w,b,a)=21∥w∥2−n=1∑Nan{tn(wTxn+b)−1}
对偶问题:
amaxn=1∑Nan−21n=1∑Nm=1∑Nanamtntmk(xn,xm)
s.t.n=1∑Nantn=0,an≥0
KKT条件:an≥0,tny(xn)−1≥0,an{tny(xn)−1}=0
支持向量:an>0 对应的样本(位于间隔边界上)。
7.3 软间隔SVM
引入松弛变量 ξn≥0 和惩罚参数C:
w,b,ξmin21∥w∥2+Cn=1∑Nξn
s.t.tn(wTxn+b)≥1−ξn,ξn≥0
7.4 核方法
将样本映射到高维特征空间 ϕ(x),核函数:
k(x,x′)=ϕ(x)Tϕ(x′)
常用核函数:
- 多项式核:k(x,x′)=(xTx′+c)d
- 高斯(RBF)核:k(x,x′)=exp(−2σ2∥x−x′∥2)
- Sigmoid核:k(x,x′)=tanh(κxTx′+θ)
决策函数:
y(x)=n=1∑Nantnk(x,xn)+b
8. 神经网络(1)
8.1 MP模型
第i个神经元的输出:
yi=f(j=1∑dwijxj−θi)
其中 f(⋅) 为激活函数,θi 为阈值。
8.2 激活函数
- 阶跃函数:f(x)={1,−1,x≥0x<0
- Sigmoid:f(x)=1+e−x1
- 双曲正切:tanh(x)=ex+e−xex−e−x
- ReLU:f(x)=max(0,x)
8.3 感知器
感知器学习规则(Hebb规则):
Δwij=ηxjyi
或对于监督学习:
Δwij=η(ti−yi)xj
感知器收敛定理:若样本线性可分,感知器学习算法在有限次迭代后收敛。
异或问题:单层感知器无法解决,需要多层感知器(至少一个隐层)。
9. 深度学习(1)
9.1 卷积神经网络(CNN)
卷积层:
yi,j=m∑n∑xi+m,j+n⋅wm,n+b
池化层(以最大池化为例):
yi,j=m,n∈windowmaxxi+m,j+n
反向传播关键公式:
- 输出层误差:δL=∇aC⊙σ′(zL)
- 隐藏层误差:δl=((wl+1)Tδl+1)⊙σ′(zl)
- 参数梯度:∂wl∂C=δl(al−1)T,∂bl∂C=δl
9.2 经典网络结构
- LeNet-5:卷积→池化→卷积→池化→全连接
- AlexNet:ReLU+Dropout+GPU并行,5层卷积+3层全连接
- VGGNet:连续3×3小卷积核堆叠,深度16-19层
- ResNet:残差块 y=F(x,{Wi})+x,解决梯度消失,可训练上百层
10. 深度学习(2)
10.1 循环神经网络(RNN)
隐状态更新:
ht=f(Whhht−1+Wxhxt+bh)
输出:
yt=g(Whyht+by)
BPTT(基于时间的反向传播):
∂W∂L=t=1∑T∂W∂Lt
梯度问题:长序列下梯度消失/爆炸:
∂h1∂hT=t=2∏TWhhT⋅diag(f′(zt))
10.2 LSTM
门控机制:
- 遗忘门:ft=σ(Wf⋅[ht−1,xt]+bf)
- 输入门:it=σ(Wi⋅[ht−1,xt]+bi)
- 候选状态:C~t=tanh(WC⋅[ht−1,xt]+bC)
- 状态更新:Ct=ft⊙Ct−1+it⊙C~t
- 输出门:ot=σ(Wo⋅[ht−1,xt]+bo)
- 输出:ht=ot⊙tanh(Ct)
缩放点积注意力:
Attention(Q,K,V)=softmax(dkQKT)V
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中 headi=Attention(QWiQ,KWiK,VWiV)
位置编码(正弦余弦):
PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)
前馈网络:
FFN(x)=max(0,xW1+b1)W2+b2
10.4 自编码机(AutoEncoder)
编码:h=f(W(1)x+b(1))
解码:x^=g(W(2)h+b(2))
损失函数(MSE):
L=N1i=1∑N∥x^i−xi∥2
10.5 生成对抗网络(GAN)
- 生成器G:z∼pz(z)→G(z;θg)
- 判别器D:D(x;θd)∈[0,1]
目标函数(Minimax):
GminDmaxV(D,G)=Ex∼pdata(x)[lnD(x)]+Ez∼pz(z)[ln(1−D(G(z)))]
训练过程:交替优化D和G。
11. 聚类
11.1 K均值算法(K-Means)
目标:最小化准则函数
J=k=1∑Kxi∈Ck∑∥xi−μk∥2
算法步骤:
- 随机初始化K个簇中心 μk
- 分配步:Ck={xi:∥xi−μk∥2≤∥xi−μj∥2,∀j}
- 更新步:μk=∣Ck∣1∑xi∈Ckxi
- 重复2-3直至收敛
K-means++:改进初始化,第n+1个中心选择概率与到已有中心距离平方成正比。
11.2 层次聚类(AGNES)
自底向上聚合:
- 初始每个样本为一簇
- 计算簇间距离矩阵
- 合并距离最近的两个簇
- 更新距离矩阵,重复2-3直至达到预设簇数
簇间距离度量:
- 最小距离(单链接):dmin(Ci,Cj)=minx∈Ci,z∈Cj∥x−z∥
- 最大距离(全链接):dmax(Ci,Cj)=maxx∈Ci,z∈Cj∥x−z∥
- 平均距离:davg(Ci,Cj)=∣Ci∣∣Cj∣1∑x∈Ci∑z∈Cj∥x−z∥
12. 数据降维
12.1 主成分分析(PCA)
将D维数据投影到M维空间(M<D),投影方向为协方差矩阵S的特征向量。
最大方差思想:
投影后样本方差:u1TSu1,约束 u1Tu1=1
拉格朗日函数:L=u1TSu1+λ1(1−u1Tu1)
令偏导为0:Su1=λ1u1
u1 为S最大特征值对应的特征向量,即第一主成分。
计算步骤:
- 计算样本均值 xˉ 和协方差矩阵 S
- 计算S的特征值与特征向量
- 将特征值从大到小排列,前M个特征值对应的特征向量构成投影矩阵 U=[u1,...,uM]
- 降维:zi=UT(xi−xˉ)
高维数据PCA:当 D≫N 时,计算 N×N 矩阵而非 D×D 矩阵。
12.2 核主成分分析(Kernel PCA)
通过非线性映射 ϕ(x) 将数据映射到高维特征空间,再执行PCA。
核矩阵:Kij=k(xi,xj)=ϕ(xi)Tϕ(xj)
中心化核矩阵:
K~=K−1NK−K1N+1NK1N
其中 (1N)ij=N1
对 K~ 进行特征值分解,取前M个特征值对应的特征向量。
12.3 等距映射(ISOMAP)
保持数据点内在几何性质(测地距离)。
算法步骤:
- 构造邻域关系图(ϵ邻域或K近邻)
- 计算图中任意两点间最短路径(Dijkstra或Floyd算法),得到距离矩阵 DG
- 多尺度分析:将高维数据投影到低维空间,使投影前后距离矩阵相似度最大
12.4 局部线性嵌入(LLE)
保持数据点的原有流形结构。
算法步骤:
- 寻找每个样本点的K近邻
- 对每个点用K个近邻线性重建,求权值 wij 使重构误差最小:
wmini=1∑N∥xi−j∑wijxj∥2
约束:∑jwij=1
- 在低维空间中保持权值不变,最小化:
Ymini=1∑N∥yi−j∑wijyj∥2
13. 集成学习
13.1 多样性度量
对于二分类任务,分类器 hi 与 hj 的预测结果联立表:
|
hi=+1 |
hi=−1 |
| hj=+1 |
a |
b |
| hj=−1 |
c |
d |
- 不合度量:disij=a+b+c+db+c
- Q统计量:Qij=ad+bcad−bc
- Kappa统计量:κ=1−p2p1−p2
其中 p1=a+b+c+da+d(一致概率),p2=(a+b+c+d)2(a+b)(a+c)+(c+d)(b+d)(偶然一致概率)
13.2 Boosting
AdaBoost算法:
初始化样本权值分布:D1(i)=N1
对于 t=1,...,T:
- 基于分布 Dt 训练学习器 ht
- 估计误差:ϵt=∑i=1NDt(i)I(ht(xi)=yi)
- 计算学习器权重:αt=21lnϵt1−ϵt
- 更新样本分布:
Dt+1(i)=ZtDt(i)exp(−αtyiht(xi))
最终分类器:
H(x)=sign(t=1∑Tαtht(x))
13.3 Bagging与随机森林
Bagging:
- 对数据集进行T次Bootstrap采样,得到T个训练集
- 基于每个训练集训练基学习器
- 分类任务:投票;回归任务:平均
随机森林:
- 以决策树为基学习器
- 样本扰动:Bootstrap采样
- 属性扰动:每个结点随机选择k个属性(推荐 k=log2d)再选最优划分
- 最终:投票或平均
14. 半监督学习
14.1 基本假设
- 聚类假设:数据存在簇结构,同一簇样本属于同一类别
- 流形假设:数据分布在流形结构上,邻近样本有相似输出值
14.2 自训练(Self-Training)
- 用已标记样本 Dl 训练初始分类器 f
- 用 f 对未标记样本 Du 预测,将置信度高的样本及其伪标记加入 Dl
- 重复直至 Du 为空
14.3 半监督SVM(S3VM)
标准SVM(软间隔):
w,b,ξmin21∥w∥2+Ci=1∑Nξi
s.t.yi(wTxi+b)≥1−ξi,ξi≥0
S3VM(TSVM):同时利用标记和未标记样本
w,b,ξ,y^min21∥w∥2+Cli=1∑lξi+Cuj=l+1∑l+uξj
s.t.yi(wTxi+b)≥1−ξi
y^j(wTxj+b)≥1−ξj,ξi,ξj≥0
通过局部搜索迭代调整未标记样本的伪标记,使目标函数下降。
14.4 半监督聚类
约束K均值:
- 必连(must-link):样本必属于同一簇
- 勿连(cannot-link):样本必不属于同一簇
- 在聚类过程中确保约束得以满足
约束种子K均值:
- 利用少量有标记样本作为"种子"
- 用种子初始化K个聚类中心
- 迭代更新过程中不改变种子样本的簇隶属关系
15. 综合应用
15.1 语音识别
流程:语音波形 → DFT+CNN特征提取 → LSTM声学模型 → CTC/语言模型 → 文本
CTC(Connectionist Temporal Classification):
15.2 目标检测(遥感图像)
R-CNN流程:
- 选择搜索(Selective Search)生成约2000个候选区域(RoI)
- CNN提取每个RoI的特征向量
- SVM分类(前景/背景 + 多类目标)
- 边界框回归修正位置
边界框回归:预测偏移值 (Δx,Δy,Δw,Δh)
IoU(交并比):
IoU=Area of UnionArea of Intersection
15.3 医学影像分析
前列腺癌分级:
- 输入:多分辨率组织切片影像(约1-10亿像素)
- 预处理:分块(256×256) → 有效像素筛选
- 模型:CNN/Transformer提取特征 → 全连接分类
- 集成:对N个块的预测结果投票
损失函数设计:
- 交叉熵 + 均方误差(考虑等级间有序关系)
L=CE(logits,label)+λMSE(i∑i⋅logits[i],label)
- 标签平滑(Label Smoothing):
label′=(1−ϵ)⋅one-hot+ϵ/K
加权交叉熵(处理类别不平衡/不同风险):
L=−i∑wi⋅yi⋅ln(y^i)
15.4 AI for Science
盘古气象大模型:
- 3D Transformer架构,同时捕捉时间、空间和变量维度特征
- 短期、中期天气预测首次全面超过传统NWP模型
分子结构生成(MolGAN):
- 生成器:从潜在空间采样生成分子图
- 判别器:区分真实分子和生成分子
- 奖励网络:强化学习优化特定理化性质
附录:生成式模型 vs 判别式模型
| 维度 |
生成式模型 |
判别式模型 |
| 建模对象 |
联合分布 p(x,y) 或 p(x∣y)p(y) |
后验概率 p(y∣x) |
| 优点 |
信息丰富、增量学习、可合成缺失数据 |
类间差异清晰、学习简单、性能较好 |
| 缺点 |
学习过程复杂、为分布牺牲分类性能 |
不能反映数据特性、需要全部数据 |
| 代表算法 |
Naive Bayes、GMM、HMM、GAN |
逻辑回归、SVM、KNN、CRF、Boosting |
关系:由生成模型可以得到判别模型,但由判别模型得不到生成模型。
p(y∣x)=∑y′p(x∣y′)p(y′)p(x∣y)p(y)