随着金融行业全面迈入大数据时代,更多的证券、基金公司已经感受到了大数据技术带来的便利。数据是金融行业的命脉,但证券、基金公司往往受限与高性能储存的高昂成本和数据处理能力的不足,占总储存量80%以上的数据并不能得到有效利用,只是安静的“躺”在系统里。随着数据量越来越大,数据的简单调取和导出都需要等待一定时间,更遑论将这些数据进行深度挖掘和利用了。
  另一方面,近年监管部门也陆续颁布了面向证券行业的管理办法,对证券公司的数据质量、数据标准以及利用大数据做必要的风险监控等方面有所要求。
  然而,对于券商和基金公司而言,想要迈入大数据时代也会面临不小的挑战。
  证券公司数据管理的问题与挑战:
 
  1 传统数据系统难以适应如今需求
  一方面是随着数据量的增多,传统数据系统数据处理效率难以达到要求。原底层数据管理系统多为Oracle、SqlServer、DB2等传统关系型数据库,处理效率上存在天然的瓶颈。欲提高数据处理能力只能从主机的硬件能力上提高,成本过高。
  另一方面,仅能进行结构化数据的处理已经无法满足当前的需求。随着数据挖掘和机器学习大潮的来临,非结构化和半结构化数据的重要性也不断上升。以往的只能储存和处理结构化数据的模式已经被时代抛在了身后。
  除此之外,流处理能力十分重要。证券、基金行业中历史数据快速统计、窗口时间内的信息流和触发事件及模型匹配、百毫秒级事件响应等能力是实时营销和实时风险预警的重要步骤,老的系统在流处理能力上有着明显不足。
 
  2 数据资产亟待价值化
  在大数据时代,证券、基金公司已经不能满足于历史数据调取这类基本功能。数据资产价值转化,数据驱动业务是每个公司都渴望实现的,也必将成为未来金融机构的核心竞争力之一。想要将数据资产价值化,数据挖掘和机器学习是最有力的的两个工具。然而上面也提到了,数据处理效率的瓶颈和非结构化、半结构化数据处理能力的不足都制约了数据挖掘和机器学习的展开。
  除此之外,在数据资产价值转化的进程中,证券、基金公司还会遇到一系列问题,如数据架构失控、元数据管理混乱、数据标准缺失、数据质量参差、数据增长无序、数据安全问题突出等。
 
  3 大数据研发团队规模较小
  证券、基金公司往往并不具备庞大的IT研发人员团队,难以直接从零开始进行大数据平台的构建。大数据工程师集中于大型互联网公司、科技公司,且多为技术工程师和数据分析师;金融业人才具备优秀的金融业务实践能力,但欠缺大数据技术、数据科学能力。“懂业务不懂技术,懂技术不懂业务”,复合型人才也较为稀缺。另外,深入研究平台技术需要一定的时间,证券、基金公司希望从IT角度实现“弯道超车”,就一定要尽快完成大数据化的进程。无论从人员成本,还是时间成本上面,都面临不小的压力。
  除此之外,开源的Hadoop对标准SQL及PL/SQL支持程度不高,许多常用函数不支持,需要使用者编写程序实现。传统的数据集市、数据仓库大都基于SQL开发,若迁移至Hadoop平台需要少则几百行多则上万行的程序编写,这对实施人员是一项艰难的考验。
 
  证券基金行业大数据平台选型关注点:
  每个证券基金公司的状况不同,在大数据平台产品选型时有共性也有各自独特的关注点。共同关注点集中在大数据数据处理的四个特点上面:数据处理性能,数据处理时效性,数据处理类型,数据价值挖掘。此外,针对各自不同特点也有一些非共性的关注点,例如SQL兼容度、安全性、技术支持等。
 
  1 数据处理性能
  数据处理性能在选择大数据平台时最基础的一个问题。广义上大数据平台性能的概念包括数据批处理能力、实时流数据处理能力、非结构化数据处理能力等一切大数据平台需要具备的能力。狭义上数据处理性能指在面对庞大数据量时平台的批处理能力。数据处理的性能不足会导致:1无法按时完成计算任务,工期延误;2 无法对数据进行复杂操作,空有大量数据却无法转化价值;3 跟不上业务扩展的脚步,制约业务发展。除此之外还有各种各样数据处理性能不足带来的不足,因此选择大数据平台时,性能是各公司考虑的首要因素。
 
  2 数据处理时效性
  在众多应用场景之中,有相当一部分非常强调数据处理的时效性,证券基金行业中也是如此。因此,数据实时或准实时处理能力是选择大数据平台必须要考虑的因素。部分场景如实时营销和实时风险预警等对数据平台的流处理能力要求很高,至少要百毫秒级乃至十毫秒级的事件响应性能才能满足需求。
 
  3 数据处理类型
  半结构化、非结构化数据的处理是许多证券基金公司最头疼的问题之一,大数据平台产品的非结构化数据处理能力自然也是着重考察的因素。语音、图片、视频和网页等都是大数据应用的数据源。增加非结构化数据处理能力为广泛的开展数据挖掘和机器学习打下了良好的基础。
 
  4 数据价值挖掘
  数据挖掘和机器学习是推动证券、基金公司大数据化的重要因素。数据挖掘影响到了包括战略规划、经营效率、风险管理、精准营销等方方面面。但与数据价值挖掘重要性与日俱增相对应的,大数据团队的培养却并非一朝一夕可以完成。大部分机器学习工具都是需要数据挖掘工程师或者数据科学家来操作。因此,在选择大数据平台的机器学习工具时,除了性能等因素外也要考虑到工具的易用性。
 
  5 对SQL的兼容性
  开源Hadoop对标准SQL及PL/SQL支持程度不高,技术人员进行操作时的学习成本很高。在将数据从传统数据库迁移至Hadoop平台过程中,往往要编写数千条的SQL语句,复杂程度很高。在这一点上,商用Hadoop平台产品较为成熟,可以有效的减少大数据平台建设的时长。
 
  6 安全性
  随着数据量飞速增长,数据管理系统日益复杂,数据安全问题近来一直被证券基金公司作为重点对待。在服务云端化的趋势下,数据处理平台需务必保证数据资产的机密性,控制接入数据系统的用户,控制用户可以访问的数据,控制用户可支配资源。据统计有48%的券商在2017年出现过安全漏洞,一个有效的大数据集群安全保护平台是十分有必要的。
 
  7 技术支持
  考虑到技术团队的制约,证券基金公司在面临技术问题时,提供大数据平台的合作伙伴的技术支持必不可少。同样的问题在平台的部署阶段也是一个不得不考虑的因素。大数据平台合作方需要提供强力的部署团队,并且在部署过程中能快速的解决问题。证券基金行业同政府部门类似,有着大量的用户数据,在部署过程数据的安全性也是需要考虑的问题之一。国内公司在技术支持这方面有很大的优势。
 
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
 
 
 
 
 
 
了解更多课程内容及课程安排,可咨询QQ 2852509883 或致电客服 400-821-0951(工作日9:00-17:30)
【看这里】技术交流、拓展人脉、领取福利欢迎加入博为峰网校大课堂>>>