加入收藏 | 设为首页 |

许冠杰-解密人工智能机器学习之数据

海外新闻 时间: 浏览:319 次

机器学习所用的数据是怎么保存

咱们往常的数据都贮存在哪里?是不是都贮存在文件里像excel、word这类文件中,而机器学习的数据也相似如此,它大部分是贮存在csv文件中,当然也有其他文件中。为什么机器学习不像其他程序相同把数据存到像Mysql、Oracle这类数据库中呢?

像Mysql这类数据库是有功能瓶颈。首要这类联系型数据库的读取速度,机器学习常常需求读个一两G的数据,联系型数据库的读取会十分的慢。其次联系型数据库的格局,不太契合机器学习要求的数据格局,还有非联系型数据库如MongoDB,尽管它的读取功能杰出,可是由于MongoDB许多贮存是json格局数据也是不契合机器学习要求的数据格局。

机器学习大部分数据是贮存在csv中,该怎么读取它呢?Pandas,它根据NumPy创立的,所以Pandas读取csv文件十分的快。这儿额许冠杰-解密人工智能机器学习之数据定的解说下NumPy为什么那么快,由于NumPy把GIL锁释放了,GIL锁释放了之后,线程便是真实意义上的并许冠杰-解密人工智能机器学习之数据行而不是并发,所以速度十分地快。

去龙年哪里找数据

各个数据集网站的特色

数据能够用来爬虫等技术手段来搜集,可是这关于新手而言,本钱较大。所以学习数据能够从这三个网站中获取,三个网站的许冠杰-解密人工智能机器学习之数据特色如图中所示。

https://www.kaggl许冠杰-解密人工智能机器学习之数据e.com/datasets

https://archive.ics.uci.edu/ml/index.php

https://scikit-learn.org/stable/datasets/index.html#datasets

机器学习数据的结构组成

结构:特征值+目标值

那么什么是特征值?什么是目标值呢?如图所示,特征值便是房子面积、房子方位、房子楼层、房子朝向的值这些数据参数便是特征值。不知道各位同学有许冠杰-解密人工智能机器学习之数据没有注意到房子朝向这个值,比较特别,一般咱们说房子朝向都会说朝北或许朝南,可是“朝北”或“朝北”在机器学习无法辨认,所以咱们一般用数字来代表;目标值便是你想要的成果,如上图,你需求这些参数为了计算出这个房子值多少钱,这个房子值多少钱便是目标值。

这儿的数据1、数据2、数据3称之为样本。对刚读取出来的数据,需求进行缺失值处理,数据转化如朝北朝南用0、1表明,可是关于重复值是无需处理的,由于机器学习对样本能够重复学习。后续会进行具体介绍。

老铁重视我,随时了解人工智能