收藏到:
  • 您的位置: 主页 > 12bet备用网址 > 正文

    【中信建投 金融工程】大数据周报:择时持续飘

    作者: [db:作者] 作者QQ: 时间: 2018-12-31 07:21阅读:

      原标题:【中信建投 金融工程】大数据周报:择时持续飘红,选股多空差高达4.67%!

      【总第31期】

      核心观点

      1

      大数据大盘择时

      2017年08月31日发出看多信号,近期可适当加仓,上周择时收益为0.12%。从2014年01年02日到2017年09年08日,多仓单个信号平均收益2.2%累计收益200.49%;空仓信号单个平均收益0.24%,累积收益4.33%。

      2

      新闻情绪选股表现

      以情绪指数排名前5的个股作为多头,以排名倒数前5的作为空头,该策略上周多空收益差为4.67%。自2014年以来多空累计收益为197.95%,年化收益为35.34%,最大回撤27.57%。

      3

      组合表现

      上周多头组合收益2.12%,其中,万科A(000002.SZ)上周涨幅高达11.95%;

      上周多头组合相对沪深300指数超额收益2.24%,而空头组合相对沪深300指数超额收益为-2.32%。

      4

      下周推荐列表

      下周建议多头与空头组合见正文列表。

      一、大数据体系构建

      1.1

      数据采集与预处理

      大数据的源头质量,直接决定我们指标质量,决定着我们的策略优劣性。目前,国内的相关数据来源主要为第一类上交所,深交所等的公告、财报,监管信息等;第二类财经新闻网站,比如新浪财经,第一财经,东方财富网,中国证券网,金融界,雪球财经,腾讯财经,第一财经等的个股新闻,行业新闻,宏观经济等;第三类社交媒体,比如股吧,贴吧,微博等;第四类为关注数据,比如百度,搜狗等个股每天搜索数量及分析师研报提及个股等。我们目前数据主要爬取新浪财经个股相关新闻,包括200多家媒体在内的所有个股新闻。

      大数据采集则是通过网络爬虫或网站公开API等方式从上述相关网站上获取我们所需要的数据信息,将非结构化数据从网页中爬取下来,并解析相关信息,将其存储为统一的本地数据文件,并以结构化的方式存储在我们的数据库中。

      

      数据预处理指直接从网页爬取的数据并不能直接用于使用,而是需要经过一定的预处理,以保证数据质量和数据安全。因为在大数据应用中,数据来源非常广泛,数据质量良莠不齐,更需要预处理过程。数据预处理主要是去除无法解析的错误网页,删除重复的数据,去除无效的数据等;将不同的数据源爬取到的数据统一存储,建立数据仓库。

      1.2

      大数据存储技术

      从2014年1月1号到2016年9月26日,已经有200多万条个股新闻数据,共45g多,虽然现在不算超级大数据,但随着我们系统的逐渐完善,数据来源的多样化,数据存储一定会成为较大的瓶颈。为了满足大数据访问的效率与要求,大数据处理需要合理地存储与组织各种数据,以减少网络和存储I/O开销,提升系统性能; 大数据存储目前我们主要是采用分表和分区技术。

    上一篇:【中证盘前播报】新日恒力对博雅干细胞失去控 下一篇:没有了

    相关阅读

    [收藏本文]

    最新感言

    更多感言
    请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。广告评论一律删除处理!