首页 > sklearn 阅读数:3

Sklearn机器学习过程概述

在上一节中我们讲了数据预处理的几种方法,按照机器学习的过程还需要经过降维,有监督学习或无监督学习,通过对模型的评估,最终选择最合适的模型。这里我们先多它们的基本概念做一下简单的认识。

1. 什么是降维?

在机器学习过程中,我们可能会碰到一些维度非常多的数据,当使用这些复杂维度数据学习时可能会产生以下两个问题。
  • 维度多会造成过度拟合。
  • 维度多会增加机器学习算法的复杂度,从而降低机器学习的效率。

Scikit 库中提供了 3 种降低维度的方法,它们分别是 PCA、随机投影和特征凝聚,如图 1 所示。在后续我们会详细讲解这些方法和思想。

降维
图1:降维方法

2. 有监督学习与无监督学习

有监督学习是指在训练模型过程中,已知正确结果。Scikit 中提供了多种有监督学习的方法,如图 2 示:

有监督学习
图2:有监督学习相关方法

无监督学习是指在训练模型过程中,不给出目标变量,让算法自动寻找训练集中的规律。无监督学习的方法如图 3 所 示:

无监督学习
图3:无监督学习相关方法

3. 模型选择与评估

当我们对一个数据集选定模型,并进行训练之后,需要对这个模型进行评估,以判定该模型的优劣。不好的模型通常会出现以下两种情况。
  • 欠拟合。欠拟合是指模型不能很好地适应和拟合已有的数据。欠拟合的模型在训练集和测试集上都会表现很差。
  • 过度拟合。过度拟合是指模型非常完美地适应和拟合已有的数据,这将导致该模型的泛化能力严重下降。过度拟合在训练集上表现几乎完美,而在测试集上则表现得很差。

所以,最优的模型应该是欠拟合和过度拟合的折中,它既较好拟合了训练集又具有很好的泛化能力,即在测试集上也会有很好的表现。