数据分析与数据挖掘
jupyter notebook
魔法命令
Numpy 安装与导入
安装
1 | pip3 install numpy |
机器学习
机器学习:学习一种学习算法,从数据中学习并建立成模型来对新的数据进行预测的计算科学。
适用于:
1.不存在已知算法解决方案的复杂问题
2.需要大量手动调整或者规则列表超长的问题
3.可以适应环境波动的系统
基础概念:
1.提供给算法的包含所需解决方案的训练数据,称为标签
2.属性加上其值,就是特征
3.通过给定的特征来预测一个目标数值,叫回归任务
4.用于训练模型的数据叫数据集
5.用于测试模型精度的数据叫测试集
6.每一条数据叫一个样本(x),样本对应的结果叫标签(y0)
7.模型在训练数据上表现良好,泛化不好叫过度拟合,反之欠拟合
8.模型训练就是通过训练数据找到算法最合适的参数
核心问题:算法好坏和数据好坏
复杂问题,数据比算法更重要
数据处理主要解决的问题:
1.数据量不足
2.训练数据不具备代表性
3.质量差的数据
4.特征筛选