D2DL笔记_2

HopeMaker3年前 (2021-12-10)Deep Learning504

数据预处理部分:

机器学习/深度学习中,文本类型训练数据的输入通常需要进行一定的预处理,统一化之后可以更方便更高效地对模型使用现有数据进行训练,而这些文本类型的数据通常以.csv的格式出现。

下面做一个对csv格式文件的数据预处理。

首先生成一个.csv文件(,csv,comma-separated values字符分隔值文件是纯文本存储表格数据的一类文件):

读取.csv文件最方便的方法是通过pandas.read_csv(),没有pandas的话需要先安装:

读取的效果如下:

当然jupyter中可以不用print函数打印,对于pandas read 的data,jupyter会默认以html的格式打印,比print函数打印出来的更好看一点:

为处理缺失的数据,通常考虑删除和插值,删除的话总会有现有信息被丢弃,产生损失,可以采取插值的方法,取已有数据的mean平均值,对缺失数据插补:

这里jupyter给了一个warning,说Alley列不是数值,不能取平均插值,也不建议删减全NA的列,所以它不能对Alley列做操作,建议只选择可操作的列。

若只选择第一列给inputs,就不会警告:

那对Alley列,我们就不做处理了吗?显然是不能的,可以通过pandas.get_dummies(),对Alley列每种数据自动独立编码,Alley列目前有Pave和NA两种不同类型的值,那么编码只需要0和1就可以:

现在inputs和outputs里的所有元素都是数值类型的了,就可以将它们转换为张量:

这样就完成了导入.csv文件进行预处理再将其转换为张量的过程。


扫描二维码推送至手机访问。

版权声明:本文由借曦光发布,如需转载请注明出处。

本文链接:http://dawnblog.cn/?id=20

分享给朋友:
返回列表

上一篇:D2DL笔记_1

下一篇:D2DL笔记_3

相关文章

Dive into Deep Learning 笔记开更(pyTorch版)

Dive into Deep Learning 笔记开更(pyTorch版)

(今天开始,在借曦光更新DL学习笔记)在机器学习领域,python有远超其它语言的优越性! 前情提要:教程:李沐-动手学深度学习,课程网址(B站):https://space.bilibili.com/1567748478/cha...

D2DL笔记_4

D2DL笔记_4

梯度:在标量导数的基础上,将导数拓展到向量层面,称为梯度(gradient),梯度就是函数的这一点在梯度的方向上变化率最大,变化最快,所以机器学习/深度学习中,经常需要求梯度来优化模型。(理解一下就好,不常用到)y是x的函数:对于y对x向量...

D2DL笔记_5

D2DL笔记_5

数据集的使用图像分类数据集:MNIST但是过于简单,教材使用了类似但更复杂一些的Fashion-MNIST数据集首先加载一些包:(%matplotlib inline是在jupyter画图用的,如果不是jupyter如pycharm的话,是...

D2DL笔记_6

D2DL笔记_6

模型选择、过拟合和欠拟合模型选择:训练集、验证集用训练集训练模型得到相关权重参数,可以用验证集初步验证参数后再进行训练调整,但是测试集只有最后才能用来输出模型的结果,过程中不允许测试集数据加入训练。这样主要是为了得到真实结果,评估模型的泛化...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。