Leo Wang's Notepad

统计

训练数据集与测试数据集(Training Data Set & Test Data Set)

训练集(Training Set) 和 测试集(Test Set) 被广泛应用在人工智能、机器学习、遗传编程、智能系统、统计学等领域中。

训练集用来构建或者发现潜在的预测关系。

通过训练集来构建的数据关系,都存在某种程度的过适(过拟合,over-fit)问题。也就是说,训练集训练出来的模型只能体现训练集中数据之间显然的关系,却未必能代表所有的数据。

测试集则是独立于训练集的一组数据,但它服从和训练集同样的概率分布。

如果一个模型既能能很好的拟合训练集也能很好的拟合测试集,则过拟合现象就不明显。

如果模型只能拟合训练集而不能很好的拟合测试集,则过拟合现象就发生了。

简言之,训练集用来训练一个模型,测试集用来测试该模型是否恰当。

如图所示,左图的蓝点表示训练集中的数据,而绿色和橘色的曲线则是对测试集的拟合。

Trainig set and test set

Trainig set and test set

右图的蓝点表示测试集中的数据。训练集中橘色曲线拟合的MSE为4,绿色曲线为9。

同样的曲线,在测试集当中,橘色曲线的MSE为15,绿色曲线为13。…