继续做的数据分析,由于新浪获取的是未复权数据,所以在分析的时候出了些小问题,结果变得扑所迷离。于是又用了几天Tushare的获取复权数据功能,本来是写了个循环,每天自动获取,可是几乎每次下载都卡死了,这真是坑爹的网络。翻了翻Tushare的这段代码,Tushare的这个数据倒也是新浪的,但是是从网页上扒下来的,过程好像获取了两个地址的数据,貌似一个复权因子一个后复权数据,没细看了。反正我也不认为这是合理的获取方式,理想的当然是JSON或者XML之类的格式最好了。百度了一圈,没有发现哪里有免费的前复权数据,更找不到除权数据,心想找到除权数据也好啊,自己来复权。这过程中,得到了几个新浪地址,好像和复权有关,但是也没琢磨出怎么用。在这里先把地址贴下来,有时间再研究。

http://vip.stock.finance.sina.com.cn/api/json.php/BasicStockSrv.getStockFuQuanData?symbol=sz000001&type=hfq,和惯例一样,symbol指得是股票代码,而type按拼音来说应该是后复权,但我输入qfq之后得到并非前复权。

http://biz.finance.sina.com.cn/stock/flash_hq/kline_data.php?symbol=sz000001&begin_date=20100101&end_date=20161206,同上,只是有开始和结束时间。

新浪没办法了,看到很多网友都是从大智慧获取,毕竟资料还多,于是下载安装了个大智慧365。装好后在安装目录下有个Download文件夹,而除权数据就在PWR文件夹里,FIN文件夹里放的是财务数据,而ABK里则是大智慧的板块数据。

这里之所以写个日志是因为,365里的数据结构并非网络上写的四字节方式,四字节转赠股,四字节红利,四字节的配股,四字节配股价。我所看到的是120字节分段的形式,任一只股票先120字节的4-12字节为代码,接来下的120字节里前四个字节为除权日期,接着4-20字节为空,剩下的就是除权数据了,而这个数据并非分段的数值形式,而是一句话,比如10股送5股之类的,就是说得到这句话后还要进行分割。一只票除权了多少次就有多少个这样的120字节了,整理之后把代码贴上:

path = '/home/jeff/Share/DZH/Download/PWR/' name = ['full_sh.PWR','full_sz.PWR']data = []for i in name: exFile = open(path+i,'rb') exFile.seek(8) while True: exContent = exFile.read(120) if not exContent: break if exContent[:4] == b'\xff\xff\xff\xff': code = exContent[4:12].decode('gbk') elif len(exContent) > 0: date= struct.unpack("I", exContent[:4])[0] date= time.localtime(date) exlist = exContent[20:].decode('gbk').split('\x00')[0][2:].split() present = 0 bonus = 0 rationed = 0 price = 0 for i in exlist: if '送' in i: present += float(re.findall(r"\d+\.?\d*",i)[0]) if '增' in i: present += float(re.findall(r"\d+\.?\d*",i)[0]) if '派' in i: bonus += float(re.findall(r"\d+\.?\d*",i)[0]) if '价' in i: price += float(re.findall(r"\d+\.?\d*",i)[0]) if '配' in i: rationed += float(re.findall(r"\d+\.?\d*",i)[0]) - price data.append({'code':code[2:],'date':date,'present':present,'bonus':bonus,'price':price,'rationed':rationed})return data