chapter 2. 模型选择和评估

Q1：什么模型才是好的模型？

A1：泛化能力强的（即泛化误差小的）模型是更好的模型

Q2：怎样知道模型的泛化能力？

A2：思路：将数据集分为训练/验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差

Q3：具体来说，应该怎样对数据集进行划分？

A3：常用三种划分方法：

hand-out: 直接按比例划分
k-fold：k折交叉验证，特殊形式：留一法
boostrap sampling: 放回抽样

Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）

A4：有很多的量化指标可以用来度量模型的误差，常用的有：错误率、正确率、查全率、查准率、F-1、 ROC、AUC、confusion matrix、cost matrix、F-beta、cost-sensitive curve、P-R图、BEP、cost curve等等

[Notes]

过拟合无法避免，我们只能缓解或是降低其发生的风险
训练/验证集要能够充分反映数据的原始规律
在不少的应用任务中，参数调得好不好往往对最终模型性能有着关键性影响
同一算法，不同参数，会产生不同的模型；不同算法，不同参数，会产生更多不同的模型

[Tips]

在验证集上进行完了模型选择和调参后，记得要在全体数据集（训练+验证集）上在跑一遍模型
直观理解查全率、查准率、F-1（P30）
记住 bias-varance 平衡的那张图

chapter 3. 线性模型

Q1：什么是线性模型？什么是广义线性模型？

A1：线性模型：形如 y_hat = W_TX+b 广义线性模型：形如 y_hat = g(W_TX+b)

Q2：怎样从二分类问题推广到多分类问题？

A2：思路：通过组合多个二分类器，得到一个多分类器具体：

OVO：对于N个类别，训练 N(N-1)/2 个分类器
OVR：对于N个类别，训练 N 个分类器
MvM: 常用 ECOC技术

Q3：怎样处理类别不平衡问题？

A3：

欠抽样（undersampling）: 丢弃样本（但是不能随便丢弃，否则会丢失重要信息）
过抽样（oversampling）: 增加样本（但是不能简单重复，否则会造成过拟合）
阈值移动（threshold-moving）: 再缩放/再平衡

chapter 4. 决策树

Q1：什么是决策树？

A1：形如【此处应该有图】

Q2：怎样生成一棵决策树？

A2：不同的算法基于不同的原则，如ID3基于信息增益原则，C4.5基于增益率原则，CART基于基尼指数

Q3：怎样对决策树进行剪枝？

A3：常用两种剪枝策略： 1、预剪枝：训练时间短，但易于欠拟合 2、后剪枝：训练时间长，但不易欠拟合

Q4：怎样处理缺失值和连续值？

A4：缺失值：C4.5 连续值：连续变量离散化，常用二分法

Notes

为了生成一棵决策树，就要合理的选择特征作为一系列的决策变量，为了怎样合理的选择特征这一问题，诞生了一系列的决策树算法
信息增益原则对可取值数目较多的特征有偏好；增益率原则对于可取值数目较少的特征有偏好
决策树决定的决策边界有一个明显的特征：轴平行
单决策树：【此处应该有图】；多变量决策树：【此处应该有图】

chapter 8. 集成学习

Q1：什么是模型融合？

A1：

通过某种方式训练和组合多个模型，最终得到一个总的模型

Q2：为什么模型融合是可行的？

A2：

“好而不同”的单个模型，通过某种有效的方式组合在一起，是有可能得到一个比单模型更好的融合模型

Q3：都有哪些模型融合的方法？

A3：

1、Boosting（串行）：【此处应该有图】 2、Bagging（并行）: 【此处应该有图】

Q4：什么是Boosting？

A4：

STEP1. 先从初试训练集训练出一个单模型 STEP2. 根据单模型的表现对训练数据分布进行调整，使得先前单模型做错的样本在后续的训练中得到更多的关注 STEP3. 根据调整后的训练数据训练下一个单模型，返回STEP2，直到训练得到了总共T个单模型 STEP4. T个单模型加权平均

Q5：什么是Bagging？

A5：

STEP1. 采样出T个训练数据集 STEP2. 基于各个采样集单独训练模型 STEP3. 模型融合

Q6：怎样组合多个单模型？

A6：常用1、平均法，2、投票法，3、学习法（stacking）

Q7：什么是模型间的差异性？

A7：模型的多样性（差别有多么的大）

Q8：怎样进行差异性的度量？

A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量

Q9：怎样增强模型间的差异性？

A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动

Notes

模型融合中的核心问题：1、怎样训练多个单模型？2、怎样组合多个单模型？
Boosting主要关注降低偏差；Bagging主要关注降低方差；
RF中的k同时使用了数据样本扰动和特征扰动两种方式，且k一般取log_2(d), d是特征的维数
不稳定模型（对数据敏感）：决策树、神经网络稳定模型（对数据不敏感）：SVM、朴素贝叶斯、KNN、线性分类器

chapter 2. 模型选择和评估#

Q1：什么模型才是好的模型？#

A1：泛化能力强的（即泛化误差小的）模型是更好的模型#

Q2：怎样知道模型的泛化能力？#

A2：思路：将数据集分为训练/验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差#

Q3：具体来说，应该怎样对数据集进行划分？#

Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）#

chapter 3. 线性模型#

Q1：什么是线性模型？什么是广义线性模型？#

Q2：怎样从二分类问题推广到多分类问题？#

Q3：怎样处理类别不平衡问题？#

chapter 4. 决策树#

Q1：什么是决策树？#

Q2：怎样生成一棵决策树？#

Q3：怎样对决策树进行剪枝？#

Q4：怎样处理缺失值和连续值？#

Notes#

chapter 8. 集成学习#

Q1：什么是模型融合？#

A1：#

Q2：为什么模型融合是可行的？#

A2：#

Q3：都有哪些模型融合的方法？#

A3：#

Q4：什么是Boosting？#

A4：#

Q5：什么是Bagging？#

A5：#

Q6：怎样组合多个单模型？#

A6：常用1、平均法，2、投票法，3、学习法（stacking）#

Q7：什么是模型间的差异性？#

A7：模型的多样性（差别有多么的大）#

Q8：怎样进行差异性的度量？#

A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量#

Q9：怎样增强模型间的差异性？#

A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动#

Notes#

chapter 2. 模型选择和评估

Q1：什么模型才是好的模型？

A1：泛化能力强的（即泛化误差小的）模型是更好的模型

Q2：怎样知道模型的泛化能力？

A2：思路：将数据集分为训练/验证集，在训练集上训练模型，在验证集上跑模型得到的预测误差近似认为是泛化误差

Q3：具体来说，应该怎样对数据集进行划分？

Q4：如何度量模型的预测误差？（怎样才能判断一个模型表现得更好？）

chapter 3. 线性模型

Q1：什么是线性模型？什么是广义线性模型？

Q2：怎样从二分类问题推广到多分类问题？

Q3：怎样处理类别不平衡问题？

chapter 4. 决策树

Q1：什么是决策树？

Q2：怎样生成一棵决策树？

Q3：怎样对决策树进行剪枝？

Q4：怎样处理缺失值和连续值？

Notes

chapter 8. 集成学习

Q1：什么是模型融合？

A1：

Q2：为什么模型融合是可行的？

A2：

Q3：都有哪些模型融合的方法？

A3：

Q4：什么是Boosting？

A4：

Q5：什么是Bagging？

A5：

Q6：怎样组合多个单模型？

A6：常用1、平均法，2、投票法，3、学习法（stacking）

Q7：什么是模型间的差异性？

A7：模型的多样性（差别有多么的大）

Q8：怎样进行差异性的度量？

A8：成对型差异性度量指标，有助于绘图观察：不合度量，相关系数，Q-统计量，k-统计量

Q9：怎样增强模型间的差异性？

A9：有如下几种常用方法：1、数据样本扰动，2、特征扰动，3、输出扰动，4、算法参数扰动

Notes