在人工智能的众多应用方向中,最重要的方向之一便是机器学习,在机器学习中又分为有监督学习、无监督学习、深度学习等,今天我们要介绍的便是有监督机器学习。
有监督机器学习指的是通过有标记的训练样本集去进行学习训练,获得一个最优模型,此后同类的数据可按照此模型进行输入,根据输出的结果进行预测、分类,在像人一样进行思考的道路上实现第一步。常见的有监督学习算法包含线性回归算法、决策树、支持向量机、KNN。
那这些算法具体又是怎么样呢?我们一起来看看吧。为了帮助大家更好
KNN,即KNearestNeighbors,K个最近的邻居,指的是当预测集中来了一个新的数据时,我们看这个数据距离它最近的K个点分别是什么,从而判断新数据是什么类别。春节档马上上映电影《唐探3》(下图中的小绿点),我们要预测它的票房,这时候可以获取同类电影、同类导演、演员、上映时间、上映时长的电影数据,计算《唐探3》到这些电影(下图中的小红点、小蓝角)之间的距离,看看前K个的值,如果前K个值中大部分是5亿~10一,少部分是低于5亿,少部分是高于10亿,那么预测《唐探3》票房在5-10亿是最可能的。
在KNN算法中,K的值是很重要的,K过小或过大,都会对结果有影响,因此在实际操作中,也需要通过不断的实践,找到最合适的K值。KNN算法的好处是简单、模型训练时间快、预测效果好,缺点是耗内存、速度慢、对不相关的数据规模敏感,因为存储了大量的数据、每个数据逐次计算。当数据量较大时,可以选择使用KNN算法。