本文共 2115 字,大约阅读时间需要 7 分钟。
机器学习是计算机基于数据构建概率统计模型
并运用模型对数据进行预测与分析
的学科。
人工智能
的核心,从大量现象中提取反复出现的规律与模式,是使计算机具有智能的根本途径。 被描述的性质叫属性,不同属性值有序排列得到的向量就是数据,也叫实例
例如:人的属性有肤色、眼睛大小、鼻子长短、颧骨高度
,属性值可以描述为浅、大、短、低
每个属性都代表了一个不同的维度,这些属性共同构成了特征空间
每一组属性值的集合都是这个空间中的一个点,因而每个属性实例都可以视为特征空间中的一个向量,叫特征向量。
学习器的预测输出与样本真实输出之间的差异,是机器学习的重要指标之一
观测结果的数字统计与相应数值组的吻合
测试误差与模型复杂度之间呈现的是抛物线的关系。
机器学习模型,本质上是一个函数,作用是从一个一个样本\(x\)到样本的标记值\(Y\)的映射,即\(Y=f(x)\)
模型需要在给定样本集合\(\{{x_i|i=1,...,n}\}\)以及对应标签\(<Y_1,Y_2,...,Y_n>\)情况下,用假设已知的函数形式\(Y=f(x_i)\)尽可能拟合客观存在的映射函数,并保证在未知分布上具有尽可能相近的拟合能力如何得到最优模型?
如果将训练集分成10个子集\(D_{1-10}\),交叉验证需要对每个模型进行10轮训练对算法参数进行设定,是机器学习中重要的工程问题,在神经网络与深度学习中的体现尤为明显。
调参过程中,主要问题就是性能和效率之间的折中。为了解决过拟合
问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的“正则化”(又称为“惩罚”,penalty)。
建立一个回归方程来预测目标值,用于连续型分布预测
给定大量带标签的数据,计算出未知标签样本的标签取值
将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征
计算出数据之间的频繁项集合
原高维空间中的数据点映射到低维度的空间中
监督学习
基于已知类别的训练数据进行学习无监督学习
基于未知类别的数据进行学习半监督学习
同时使用已知类别和未知类型的训练数据进行学习受学习方式的影响,效果较好的算法执行的都是监督学习的任务。监督学习的任务就是在假设空间中根据特定的误差准则找到最优的模型,可以分成两类方法
朴素贝叶斯
逻辑回归
即使是AlphaGo Zero,训练过程也要受围棋胜负规则 的限制,因而也离不开监督学习的范畴。
所以,监督学习是目前机器学习的主流任务。在图像识别领域,高识别训练场的背后是大量被精细标记的图像样本,而对百万的数字图像进行标记需要有耗费大量人力,这就是一种监督学习。生成方法具有更快的收敛速度和更广的应用范围,判别方法具有更高的准确率和更简单的使用方式转载地址:http://ogokz.baihongyu.com/