首页 > sklearn 阅读数:3

Sklearn库(scikit-learn)是什么?

机器学习的算法众多,在生产环境中,我们往往没有那么多时间学习算法的原理,从零开始建模,而且,我们自己的模型需要经过很多打磨才能变得健壮。那么,有没有别人已经实现好的机器学习算法可以供我们调用呢?答案是有的。

Scikit 又称 scikit-learn 库(简称 sklearn)是一个通用型开源机器学习库,它几乎涵盖了所有机器学习算法,并且搭建了高效的数据挖掘框架。我们可以通过官网访问它,如图 1 所示。

sklearn官网
图1:scikit-learn官网
 
可以看到官网的宣传中主要提到其 4 个特点。
  • 一个简单高效的数据挖掘和数据分析工具。
  • 对于所有人都是易用的,而且可以在各个环境中使用。
  • 它是基于Numpy、Scipy和Matplotlib的库。
  • 开源,可以商用。

这个库另一个优点是库的设计十分有条理。Scikit 库主要分为以下 6 个板块。
  • 分类(Classification)
  • 回归(Regression)
  • 聚类(Clustering)
  • 降维(Dimensionality reduction)
  • 模型选择(Model selection)
  • 预处理(Preprocessing)

其中分类和回归问题被称为有监督学习,聚类问题被称为无监督学习。实际进行机器学习的过程一般依次为预处理、降维、有监督和无监督学习、模型选择,如图 2 所示。

机器学习过程
图2:机器学习过程