政府大数据分析关键技术
发布时间:2016-11-09 10:58:19
【摘要】随着政府数据的大量增长,传统的审计方式越来越显示出它的局限性,难以满足当前审计工作的需要。我们需要研究一些关键的技术来解决当前面临的一些问题,例如多源大数据整合,政府大数据指标分析等,增进审计信息化;并探讨用机器学习的相关技术来解决问题的可行性。
【关键字】 大数据 审计信息化 机器学习
1.背景
近些年来,随着计算机和信息技术的快速发展以及广泛应用,人类产生的数据量呈现爆发式的增长。根据世界权威IT信息咨询分析公司IDC和风投公司KPCB的研究报告:2011年全球产生的信息量已经超过了1.8ZB[1],而这个数字在2013年则突破了4ZB[5]。许多现象和事实表明,我们已经进入了一个全新的时代,大数据时代。
政府作为一个庞大的组织机构,也是最大的数据产生、收集、使用和发布的单位,其所掌握的数据包括公民的个人数据、国家环境数据及其自身的业务数据等等,这些数据的爆炸式增长形成了政府大数据,这也同样对政府的数据管理和信息维护能力提出了新的要求。正是出于政府与大数据的紧密关联,美国、英国、澳大利亚等世界主要国家的政府都纷纷将大数据列为重要的国家战略[4]。
2.改进当前审计方法的必要性
由于政府数据量的爆炸式增长,依照传统的手工操作来进行审计的制约性越来越强,难以高效的对海量的数据进行审计。我国自1999年4月起就开始研究和采用“会计信息化”这一个概念。随着我国组建了信息化领导小组,推动计算机在各个领域的推广应用,目前已经或正在建立金关工程、 金卡工程、金桥工程、金税工程、金卫工程、金文工程 等系统。会计信息化的工作这些年也发展迅速[2]。
同时,由于学术界和工业界对大数据技术展开了大量的研究和开发工作,将大数据技术与审计方法相结合成为了可能,并将大大改进原有的审计方式和审计效率。对于数据资产的有效管理和使用将能够产生积极的社会效益、提升政府的服务水平、提高政府治理社会的能力、增强公共服务的科学性,从而在整体上提升我国的国际竞争力[3]。针对政府大数据的处理和分析,我国在电子政务等基础平台的建设方面与欧美发达国家处于同等水平,因此加速开展大数据关键分析技术研发、争取尽早获得拥有自主知识产权的大数据关键分析技术显得尤为重要。
3.多源大数据整合
我们将以江苏省审计厅所掌握的政府大数据为基础,进行大数据关键分析技术研究,并将研究成果应用于财政审计。为此,我们首先要面对的问题就是如何连通各个政府部门之间的数据,最小化数据之间的不一致性,提供政府大数据的统一访问接口。
3.1面临的问题
政府的大数据一向体现了大数据的4个V的复杂性:体量巨大(Volume)、变化迅速(Velocity)、形式多样(Variety)以及精确度低(Veracity)。近年来政府各部门使用各自独立的软硬件平台收集和处理数据,形成了信息孤岛,数据在完整性、一致性和准确性上的问题变得越来越突出,已经成为了连通信息孤岛、挖掘大数据价值的一大障碍。主要的情况有:
1)数据不一致。由于企业基本信息存在日常变更现象,而变更信息缺乏共享机制,造成部门数据之间数据不一致,例如不同系统之间的单位名称和单位代码可能不一样,不同年度数据中的单位名称和单位代码也不一样。
2)数据不匹配。不同部门对于同一主体或者事实表述不一致,例如,“会议费”、“会务费”表述不一致,但语义上面是一致的。
3)“三证合一”困难。企业同时具有多种标识,包括组织机构代码、工商注册号和税务登记号。不同部门常常使用不同的企业标识,匹配这三种标识难度大、不易操作。
因此,将多源、异构的大数据合并到一起,为用户提供关于数据的统一视图的数据整合是非常有必要且迫切需要的。
3.2初步解决方案的探索
对于解决这种数据整合和相似性计算的方法,国内外有过许多探讨和尝试,比如字段匹配算法、Smith-Waterman算法、KNN算法以及多种基于统计检验的办法。这些方法在解决一般的相似性问题计算以及推荐等问题上都有不错的表现,但是如果将这些方法带入到上述的政府大数据中,就显得有些无力。因为文字上的相似度计算比数值数据的相似度计算上准确度差距很大,它主要是基于编辑距离的,例如“苏宁”和“苏宁云商集团股份有限公司”这两个名称的编辑距离较大,但语义上这两家公司是指的同一家企业,又例如“南昌”和“南京”虽然只相差一个字,但确是指的两个完全不同的城市。
由于中文语句词汇的各种复杂语义对于相似性度量计算准确性所带来的苦难,我们考虑将用概率图模型来解决相似性连接问题的可能性。数据的概率图表示是将每一条数据视为一个图节点,数据之间的关系视为边,在边上可以标记带有语义信息的局部相似性数值,而数据整合问题则可以视为数据概率图上的节点合并问题,可以通过局部范围内数据之间的相似性推理而加以实现。
4.大数据指标分析技术
政府大数据具有时间上(例如不同的年份、季度、月份)和空间地理(例如不同的国家或者城市)的属性,在许多具体的应用场景中,我们需要从这些属性中提取出我们感兴趣的信息,并且基于这些信息来理解和预测未来可能要发生的事情,或者评估数据是否发生了异常。即根据数据的历史变化给出客观的评估,并预测数据的未来走势。
4.1大数据指标分析的优势
基于大数据指标分析的审计分析将有利于提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,更加有效地服务于国家治理的理念。大数据指标分析可以通过对相关领域长年累月形成的数据的分析,挖掘出某种群体行为的特点,提示财务状况或者社会现象的潜在规律,为政府进行财务监管以及制定社会政策提供关键依据,从而帮助政府和审计部门不断地发现问题、改进问题。随着大数据指标分析研究的进一步深化,这种新型的审计分析方法还能超越传统的数据分析方法,不但是对纯数据可以进行分析,对言论、图表等都可以进行深度挖掘[6]。
4.2初步研究探索
大数据指标分析关键技术主要就是涉及异常模式检测和预测问题。基于时间序列进行异常检测,从而判断在这个时间序列的实体在物理世界的行为上是否存在异常。时间序列的模式表示是一种对时间序列进行抽象和概括的特征表示方法,是在更高层次上对时间序列的重新描述。常用的时间序列模式表示方法包括频域表示法、分段线性表示法、符号表示法以及主成分分析表示法等。通常,时间序列数据中有很多模式是频繁出现的,而频繁模式之外的那些极少出现的变化模式可被当作异常模式。目前,对时间序列异常模式有基于人工免疫系统的检测方法、基于支持向量聚类的检测方法以及基于后缀树和Markov模型的检测方法。
时间序列的预测就是通过分析该时间序列的历史取值,来预测其在将来一段时间内的可能取值。在目前来说,有许多机器学习的方法可以用来实现时间序列预测,例如多层感知机、神经网络、深度学习、k近邻回归、支持向量机等等。
通过将这些机器学习的方法与政府大数据相结合,可以有效的挖掘数据中隐藏的价值,与传统的通过人工进行审计的方法相比,更加方便且更加精准,对此我们有必要引起相当的重视。
5.创新与特色
从科学数据的角度入手,以江苏省审计厅所拥有的政府大数据作为基础,力求突破政府大数据分析的共性、关键性技术,再将这些关键技术应用到财务审计工作。
本文中研究的多源大数据整合、大数据与知识的一致性检验和时空大数据关键指标分析等内容,相关问题在政府大数据处理中均有迫切需求,而现有技术却不能很好地满足这些需求,在实践中,相关问题大多依靠人工手段解决。对于政府大数据的研究将能填补国内在相关研究领域中的空白。同时,大数据关键技术的研究成果将应用于江苏省审计厅的实际工作任务,搭建财务审计信息化平台,能有效地节约人工成本,提升财务审计工作的效率和准确性。
主要参考文献
[1] J. Gantz and D. Reinsel. Extracting Value from Chaos, IDC, 2011.
[2] 王智玉. 审计信息化与审计信息组织方式,审计研究,2011年4期.
[3] 涂子沛. 大数据: 正在到来的革命, 以及它如何改变政府、商业和我们的生活, 广西师范大学出版社, 2012.
[4] Australian Department of Finance. Big Data Strategy -- Issues Paper, 2013.
[5] M. Meeker and L. Yu. Internet Trends, Kleiner Perkins Caulfield Byers, 2013.
[6] 徐正光. 浅谈“大数据”背景下的审计分析,中华人民共和国审计署,2014
上一篇: 基于大数据的教育审计全覆盖探析