59 张机器学习基础概念小卡片



1 准确率:分类问题中的常见度量方法。当我们有极为不平衡的分类时则不能奏效。 这种情况下使用 F1 分数更为合适。

2 自适应提升算法:

  1. 为每一个观测值 Xi 赋一个初始的权重值, Wi = 1/n, n 是观测值总数。

  2. 训练一个“弱”模型。(通常是决策树)

  3. 对于每一个观测值:

    1. 如果预测值错误, Wi 增加

    2. 如果预测值正确, Wi 减少

  4. 训练一个新的弱模型,其中,有更高权重的观测值获得更高优先级。

  5. 重复第 3、 4 步,直到观测值都能被完美预测出来或者预设数量的树都被训练完了.

3 调整 R 平方:

直观上:一旦所有正确的特征都已经加上,额外的特征应该被惩罚。

(译者注:调整 R 平方有最大值,在此最大值下有最好的特征组合,常用于特征选择。)

4 凝聚型聚类:所有的观测值初始自成一个聚类。根据一些标准,聚类间相互合并。不断重复这一过程,直到到达某一终点。

5 AIC(Akaike information criterion):在特征选择时用于比较哪个模型更好。 AIC 越小越好。

6 几乎处处:根据度量理论,一个几乎处处成立的性质对所有事物都是正确的,但是一些先锋案例就会自然地忽略掉。

7 安斯库姆四重奏: 安斯库姆四重奏用 4 组完全不同的数据,得出相同的汇总统计和回归线。这是对汇总统计的警示。

8 神经网络架构:

神经网络架构指单元,他们的激活函数,有几层等等。

大多数的神经网络架构可被理解为单元堆积层。

某一问题的最好架构应该通过使用验证集试验后找到。

9 AUC: ROC 曲线代表二分类器中真正类比例和假正类比例的概率阈值。 AUC 能评判模型的整体质量。 AUC 越高越好。

10 避免过拟合:简单模型,交叉验证评估,正则化,获取更多数据,集成学习

11 反向传播:是通过神经网络将信息逆向传送的算法,根据参数计算损失函数的梯度,不负责更新参数,由优化算法执行。

12 词袋: 将文本转化为矩阵,其中,每一行都是一个观测值,每一特征都是一个独特的词语。矩阵里每个元素的值要么是一个二分指示器,标志着某个词语是否存在;要么是一个整数,显示某个词语出现了几次。

13 自助聚合:将数据集里的数据替代取样,拆分成多组数据,放入模型中训练,最后混合成一平均模型。

14 自助聚合 VS 丢包:

模型:在自助聚合,所有模型都是独立的

在丢包,子神经网络共享参数

训练:在自助聚合,所有模型都会被训练

在丢包,只有一部分可能的子神经网络会被训练。

15 深度学习,基础部分

  1. 数据

  2. 损失函数,例如:交叉熵

  3. 优化算法,例如:自适应矩估计

  4. 网络架构例如:全连接层

  5. 测试数据

  6. 矩阵评估,例如:准确率

16 贝叶斯误差:想象我们能看见潜在的真实人口分布。即使其中因宇宙中的固有噪声或数据中的限制而存在预测误差,那这误差就被叫做贝叶斯误差,且是最小误差。

17 贝叶斯方法的优缺点

优点:在数据少的情况下表现不错,十分直观

缺点:数据多计算代价高,必须选择先验条件

18 偏差:偏差是使用模型近似真实世界关系时引发的期望误差

19 偏差-方差权衡

20 大 O:代表算法的空间需求或随着输入数量上升而上升的运行时间。

21 提升:一种训练一系列弱模型的集成学习策略,每个模型都会尝试正确预测先前模型预测错的观测值。

22 自助:自助法通过从原数据集不断替换取样来获取许多新数据集。

23 布莱尔分数:布莱尔分数展现了所有观测值的预测概率和实际结果间的平方平均误差。分数越低越好。范围在 0 到 1 之间。

24 正则化强度的倒数: 超参数α是用来控制正则化强度的。然而,通常我们见到的超参数 C 为倒数。

25 容量:机器学习算法的容量是他学习多种可能函数的能力。更高的容量意味着在过拟合风险下更灵活的模型。

26 类别特征:

列名性:分类没有内在顺序,例子:水果的种类、性别、国家

有序性:分类有内在顺序,例子:疼痛等级、学校年级

27 微积分链式法则:用于有效地计算逆传播中的梯度。

逆传播通常在张量上使用链式法则,但是理念是基本相通的。

28 特征选择中的卡方:为了在特征选择中使用卡方,我们计算每个特征和目标的卡方,选择有最好卡方分数的特征数。

直觉来说,如果一个特征独立于目标,则他对分类观测值上是无法提供信息的。

29 卡方:测试分类性数据和随机情况相比的不同程度。

30 分类:分类问题需要我们训练模型来预测定性目标,例如:性别或水果种类。

31 神经网络的常见优化方式:

  1. 随机梯度下降

  2. 动量随机梯度下降

  3. 均方根传播

  4. 自适应矩估计

32 激活函数常见输出层:

二分类: Sigmoid

多分类: softmax

回归:无激活函数

33 凹函数与凸函数的区别

34 调节:调节能力用于衡量当函数的输入变化时,函数输出的变化程度。弱调节函数在数值计算中约去误差环节十分敏感。

35 置信区间: 95%的可信度意味着,如果我们执行相同的实验 100 次,其中的 95 次置信区间会包括真的参数值(例如β1 的真值)。

36 混淆矩阵:混淆矩阵通过比较真实和预测类,将分类器的准确率可视化。对角线上的方格是错误预测。

37 模型一致性:随着观测值的数量接近无限,预测目标和真实目标之差大于定值的概率趋近于0。

38 成本和损失函数:成本和损失函数是一码事儿。他们都是我们训练模型想要缩小的目标函数。

39 Mallows’s Cp: 在模型选择中用于比较不同模型的表现。

40 交叉熵,越大说明这一类中个体与个体的差距越大。

41 累计分布函数: 累计分布函数说明了随机变量的值小于某些特定值的概率。 他是能否到达某一值的概率积累。

42 维度灾难:随着特征空间的维度增加, 算数配置指数型增长,因此被一个观测值覆盖的配置的数量下降。

43 数据生成分布

44 数据集增强:通常用于图像识别。通过旋转、缩放、移动等在计算机视觉问题中制造图像噪声。其他注入噪声的方法可用于其他问题中能大量减少泛化误差。

45 附带噪声的基于密度的空间聚类应用:他寻找高密度的观测值且不对聚类的数量或形状做出

假设。

  1. 选择一个随机观测值 Xi

  2. 如果 Xi 有最小近邻,我们认为他也属于聚类的一部分

  3. 对 Xi 的所有邻居递归重复步骤 2,例如邻居的邻居。这些是聚类的核心。

  4. 一旦步骤 3 遍历完所有观测值,选择一新的随机点

然后,不属于核心的观测值会被分配到聚类的附近或被标记为异常值

46 图中的虚线为该例的决策边界

47 决策树回归:和决策树分类相似,但用了均方误差或相似的度量方法来替代交叉熵或基尼系数,以决定分割点。

48 决策树:决策树有高解释性,在训练后你能准确地画出他们。在能提供最高信息增益的特征点进行分离。

49 K 近邻自身并不“学习”,很懒,只是把数据给记住喽。

50 点积:也叫内积,当点积为 0 时,两向量正交

51 下采样:一个解决不平衡类的策略,方法为创造一个和小类别相同大小的主类别的随机子集。

52 丢包:用共享参数训练子网络集成。集成中包括所有可能的子网络,受超参数控制的特定 丢包概率控制。

53 提前停止的优点

  1. 不需要改变网络架构或训练方法

  2. 在最优点自动停止而不是需要超参数像权重衰退那样调节

54 提前停止:当验证损失增加时,神经网络训练停止

55 独热函数在特征重要性上的影响

在随机森林中,我们可以衡量每个特征的重要性。然而,如果我们独热的特征有列名性、分类性,那个特征的重要性就会被分布到所有的独热特征上。

56 弹性网络:一种混合 L1、 L2 正则化的线性回归模型

57 指数型线性单元

58 编码有序分类特征:一些机器学习算法需要数值型特征,这看起来可能简单,但要着重注意的是,我们编码的是类别之间的间隔。

59 集成方法:当几个模型分别训练后,我们通过投票或平均来产出结果,例如:随机森林

Donate comment here