统计学习方法

1.1 统计学习

1. 统计学习的特点

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也被称为统计机器学习(statistical machine learning)。
统计学习的主要特征是:

  • 统计学习以计算机及网络为平台,是建立在计算机及网络上的
  • 统计学习以数据为研究对象,是数据驱动的学科
  • 统计学习的目的是对数据进行预测和分析
  • 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析
  • 统计学习是概率学、统计学、信息论、计算理论、最优化理论和计算机科学等多领域的交叉学学科,并且在自己发展中逐步形成了独自的理论体系和方法论

赫尔伯特·西蒙(Herbert A.Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指统计机器学习。

2. 统计学习的对象

统计学习研究的对象是数据(data)。它从数据出发,提取出数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析预测中。作为统计学习的对象。数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性。这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于它们

3. 统计学习的目的
4. 统计学习的