博客
关于我
机器学习数据处理时label错位对未来数据做预测
阅读量:424 次
发布时间:2019-03-06

本文共 5015 字,大约阅读时间需要 16 分钟。

这篇文章继上篇,通过将测试集label(行)错位,将部分数据作为对未来的预测,观察其效果。

实验方式

  • 以不同方式划分数据集和测试集
  • 使用不同的归一化(标准化)方式
  • 使用不同的模型
  • 将测试集label错位,计算出MSE的大小
  • 不断增大错位的数据的个数,并计算出MSE,并画图
  • 通过比较MSE(均方误差,mean-square error)的大小来得出结论

过程及结果

数据预处理部分与上次相同。两种划分方式:

一、

test_sort_data = sort_data[16160:]test_sort_target = sort_target[16160:]_sort_data = sort_data[:16160]_sort_target = sort_target[:16160]sort_data1 = _sort_data[:(int)(len(_sort_data)*0.75)]sort_data2 = _sort_data[(int)(len(_sort_data)*0.75):]sort_target1 = _sort_target[:(int)(len(_sort_target)*0.75)]sort_target2 = _sort_target[(int)(len(_sort_target)*0.75):]

二、

test_sort_data = sort_data[:5000]test_sort_target = sort_target[:5000]sort_data1 = _sort_data[5000:16060]sort_data2 = _sort_data[16060:]sort_target1 = _sort_target[5000:16060]sort_target2 = _sort_target[16060:]

一开始用的第一种划分方式,发现直接跑飞了

然后仔细想了想,观察了上篇博客跑出来的数据,果断换了第二种划分方式,发现跑出来的结果还不错

MaxMinScaler()

看到lr模型明显要大,就舍弃了

(emmmmm。。。这张图看起来就友好很多了)

MaxAbsScaler()

StandardScaler()

代码

其中大部分的代码都是一样的,就是改改归一化方式,就只放一部分了

数据预处理部分见上篇博客

加上这一段用于画图

import matplotlib.pyplot as plt lr_plt=[]ridge_plt=[]svr_plt=[]RF_plt=[]

接着,先计算不改变label时的值

from sklearn.linear_model import LinearRegression,Lasso,Ridgefrom sklearn.preprocessing import MinMaxScaler,StandardScaler,MaxAbsScalerfrom sklearn.metrics import mean_squared_error as msefrom sklearn.svm import SVRfrom sklearn.ensemble import RandomForestRegressorimport xgboost as xgb#最大最小归一化mm = MinMaxScaler()lr = Lasso(alpha=0.5)lr.fit(mm.fit_transform(sort_data1[new_fea]), sort_target1)lr_ans = lr.predict(mm.transform(sort_data2[new_fea]))lr_mse=mse(lr_ans,sort_target2)lr_plt.append(lr_mse)print('lr:',lr_mse)ridge = Ridge(alpha=0.5)ridge.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)ridge_ans = ridge.predict(mm.transform(sort_data2[new_fea]))ridge_mse=mse(ridge_ans,sort_target2)ridge_plt.append(ridge_mse)print('ridge:',ridge_mse)svr = SVR(kernel='rbf',C=100,epsilon=0.1).fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)svr_ans = svr.predict(mm.transform(sort_data2[new_fea]))svr_mse=mse(svr_ans,sort_target2)svr_plt.append(svr_mse)print('svr:',svr_mse)estimator_RF = RandomForestRegressor().fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)predict_RF = estimator_RF.predict(mm.transform(sort_data2[new_fea]))RF_mse=mse(predict_RF,sort_target2)RF_plt.append(RF_mse)print('RF:',RF_mse)bst = xgb.XGBRegressor(learning_rate=0.1, n_estimators=550, max_depth=4, min_child_weight=5, seed=0,                             subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=1, reg_lambda=1)bst.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)bst_ans = bst.predict(mm.transform(sort_data2[new_fea]))print('bst:',mse(bst_ans,sort_target2))

先将label错位,使得data2的第i位对应target2的第i+5位

change_sort_data2 = sort_data2.shift(periods=5,axis=0)change_sort_target2 = sort_target2.shift(periods=-5,axis=0)change_sort_data2.dropna(inplace=True)change_sort_target2.dropna(inplace=True)

然后用一个循环不断迭代,改变错位的数量

mm = MinMaxScaler()for i in range(0,45,5):    print(i)    lr = Lasso(alpha=0.5)    lr.fit(mm.fit_transform(sort_data1[new_fea]), sort_target1)    lr_ans = lr.predict(mm.transform(change_sort_data2[new_fea]))    lr_mse=mse(lr_ans,change_sort_target2)    lr_plt.append(lr_mse)    print('lr:',lr_mse)        ridge = Ridge(alpha=0.5)    ridge.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)    ridge_ans = ridge.predict(mm.transform(change_sort_data2[new_fea]))    ridge_mse=mse(ridge_ans,change_sort_target2)    ridge_plt.append(ridge_mse)    print('ridge:',ridge_mse)        svr = SVR(kernel='rbf',C=100,epsilon=0.1).fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)    svr_ans = svr.predict(mm.transform(change_sort_data2[new_fea]))    svr_mse=mse(svr_ans,change_sort_target2)    svr_plt.append(svr_mse)    print('svr:',svr_mse)        estimator_RF = RandomForestRegressor().fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)    predict_RF = estimator_RF.predict(mm.transform(change_sort_data2[new_fea]))    RF_mse=mse(predict_RF,change_sort_target2)    RF_plt.append(RF_mse)    print('RF:',RF_mse)    #     bst = xgb.XGBRegressor(learning_rate=0.1, n_estimators=550, max_depth=4, min_child_weight=5, seed=0,#                              subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=1, reg_lambda=1)#     bst.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)#     bst_ans = bst.predict(mm.transform(change_sort_data2[new_fea]))#     print('bst:',mse(bst_ans,change_sort_target2))        change_sort_target2=change_sort_target2.shift(periods=-5,axis=0)    change_sort_target2.dropna(inplace=True)    change_sort_data2 = change_sort_data2.shift(periods=5,axis=0)    change_sort_data2.dropna(inplace=True)

 然后就可以画图了

x=[0,5,10,15,20,25,30,35,40,45]plt.plot(x,lr_plt,label='lr',color='r',marker='o')plt.plot(x,ridge_plt,label='plt',color='b',marker='o')plt.plot(x,svr_plt,label='svr',color='g',marker='o')plt.plot(x,RF_plt,label='RF',color='y',marker='o')plt.legend()plt.show()

结果分析

从上面给出的图来看,发现将label错位后,相比于原来的大小还是有所增大,但是增大后的值并不是特别大,并且大致在某个范围内浮动,大概在错位10个label时能得到的结果是最好的。

 

转载地址:http://yywuz.baihongyu.com/

你可能感兴趣的文章
Nginx配置自带的stub状态实现活动监控指标
查看>>
nginx配置详解、端口重定向和504
查看>>
Nginx配置负载均衡到后台网关集群
查看>>
Nginx配置限流,技能拉满!
查看>>
Nginx面试三连问:Nginx如何工作?负载均衡策略有哪些?如何限流?
查看>>
Nginx:NginxConfig可视化配置工具安装
查看>>
ngModelController
查看>>
ngrok | 内网穿透,支持 HTTPS、国内访问、静态域名
查看>>
ngrok内网穿透可以实现资源共享吗?快解析更加简洁
查看>>
NHibernate学习[1]
查看>>
NHibernate异常:No persister for的解决办法
查看>>
NIFI1.21.0_java.net.SocketException:_Too many open files 打开的文件太多_实际操作---大数据之Nifi工作笔记0051
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_更新时如果目标表中不存在记录就改为插入数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0059
查看>>
NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
查看>>
NIFI1.21.0最新版本安装_连接phoenix_单机版_Https登录_什么都没改换了最新版本的NIFI可以连接了_气人_实现插入数据到Hbase_实际操作---大数据之Nifi工作笔记0050
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_插入修改删除增量数据实时同步_通过分页解决变更记录过大问题_01----大数据之Nifi工作笔记0053
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表或全表增量同步_实现指定整库同步_或指定数据表同步配置_04---大数据之Nifi工作笔记0056
查看>>
NIFI1.23.2_最新版_性能优化通用_技巧积累_使用NIFI表达式过滤表_随时更新---大数据之Nifi工作笔记0063
查看>>