政府部门大数据治理思考

2020-02-28 16:42:33

技术资料

随着信息技术的发展和“互联网+政务服务”的日益深入,政府部门所获取、处理和应用的数据越来越多,大数据、云计算等已成为不可或缺的技术手段。随着各类数据潮水般的涌入,如何利用好大数据,充分发挥大数据在政务中的重要价值,进一步推进政府数字化转型,逐渐成为摆在各级政府面前的一个重要课题。以下是对政府部门在大数据治理过程中可能存在问题的几点思考。

一、数据治理组织结构

数据治理不仅是一个技术课题,更是一个管理课题。但凡管理方面的问题,必不可少牵扯到组织架构的调整。百度对于数据治理的定义是:“数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。”在实践中,数据,包括大数据,往往是被作为企业或组织的一项重要资产,由专门的数据管理部门负责收集、治理及主导应用。在较为重视数据治理的企业中,通常会设有首席数据官(CDO)作为大数据战略的制定者和推动者,负责组织内数据资产的开发和利用,并通过数据推动组织业务的创新和发展。

而在典型的中国式领导架构中,往往会将数据管理部门设在信息化领导小组之下,成立由业务部门和信息化部门参与的协调机构共同参与数据管理与治理工作,这种结构表面上看似能够实现各司其职、充分参与,但在实际运作过程中存在着不少短板。数据出问题的时候,首先想到的是信息化部门,而数据定义和业务逻辑往往是业务部门最清楚,由信息化部门开展数据清洗和治理,很可能顾此失彼,得不偿失。因此,政府部门也可效仿企业,成立专职的数据部门,统筹数据资产管理和数据治理,根据部门的总体工作目标开展数据挖掘、数据处理和分析等工作。

二、数据共享与整合

政府间跨部门的数据共享,是解决现有“信息孤岛”,提升部门间业务协同的有效手段。在深化政府数字化转型,推进“最多跑一次”改革的大背景下,让数据多跑路,让群众少跑腿已逐渐成为一种常态。大量外部门数据的涌入,随之带来许多问题,数据质量的参差不齐,标准规范不统一等,对后续的数据应用带了不少挑战。因此,需要从数据资产的角度出发,对数据进行重新定义与整合。

大数据标准化伴随着大数据的应用而产生,包含了对大数据定义、术语、安全、架构和技术路线等多方面的研究。自2012年起,ITU-T、ISO/IEC、CCSA等国内外标准化组织相继开展大数据标准化工作,目前已发布了多项大数据标准。2018年,中国电子技术标准化研究院组织编写了《大数据标准化白皮书》,针对大数据产业发展现状及相关政策,提出了大数据标准体系的总体框架。在应用中,各政府部门可根据已有的大数据标准,及相关的数据国标、地标,选择适合自身需要且利于交互的标准,对现有的数据资产进行重新定义,确保数据符合应用现状并能够得到持续发展。

元数据管理。元数据被定义为“关于数据的数据”,它描述了数据的结构、定义、内容等信息,提供了对数据的检索、选择和交互等功能。可以说如果没有元数据,组织收集和存储的所有数据都会失去意义,也就没有业务价值。元数据的建立需要从大数据顶层设计角度出发,对组织各类业务中可能出现或收集到的数据进行归集和整理,并纳入统一的管理平台,保证对所有数据的描述全面、准确,能够得到正确的应用。这就需要通过前文提到的大数据管理部门来统一推动和管理,协调业务和信息化部门,共同确定总体的元数据框架,制定统一的制度规范和管理规则,明确工作要求,并确保可以随着业务的调整实时更新。

大数据整合。大数据整合更多的涉及技术方面的问题,一是数据来源的把控,对于实时性较高的数据,必须确保数据来源的稳定,且在数据抽取过程中应尽量避免影响业务的正常运行;二是数据清洗和转换,必须严格按照数据标准及元数据的定义,以提高数据质量为目标,确保清洗后的数据有利于后续的分析和应用,并将清洗过程中存在的问题向源端及时反馈,促进提高源端的数据质量;三是数据去重,对于多个来源的相同数据(如过车数据等),要统一数据格式和采集口径,分析比较各数据源的数据质量和精度,通过清洗整合发挥一加一大于二的效果。

三、数据质量

数据是组织最具价值的资产之一,而数据的质量则直接关系到数据资产价值的高低。一份质量极差、漏洞百出的数据,可以说是毫无价值,甚至在某些情况下还会成为拖累组织的负资产。

应该如何对数据的质量进行评价呢?一份质量合格的数据,至少应该符合以下两个方面的要求:一是数据真实有效,不存在错误或缺失;二是数据对组织有意义,与组织无关的数据并不能对业务起到任何推动作用。

在实际操作中,一般会对从数据的完整性、准确性、时效性和一致性四个方面开展数据质量评估与监测。

完整性,描述了数据的缺失程度,是数据质量最基本的衡量标准。数据的不完整可能是因为缺少了某条记录或是某些字段的不完整。数据不完整的原因,可能是数据来源的可靠性不高,约束性不强,或是来源渠道的故障、损坏。通过对数据完整性进行持续监测,可以第一时间的发现相关问题,如是感知类数据,可能是前端设备故障,则可及时、精准维护。如非感知类数据缺项较多,可从相关管理制度进一步优化、明确,确保数据采集的规范、完整。

准确性,描述了获取到的数据与真实数据的接近程度。AIOT技术的发展催生了越来越多的感知类数据进入政务大数据中,而产品的差异性和稳定性往往会对数据的准确性带来很大的干扰,特别是随着边缘计算的发展,很多获得的数据已是经过计算后得到的中间结果,很难在大数据分析中判断其准确性。这种情况下一般可通过数据模型和经验值来判断是否存在异常,也可通过神经网络、深度学习等方式从总体上对数据进行校验和纠错。

时效性,描述了数据对某一具体时段的使用价值,数据从产生到使用往往存在的一定的时间间隔,这种间隔可能是采集-存储间的时间消耗,也可能是数据应用并没有实时的要求。对于实时性的数据应用,应尽可能的减少传输上的延时,从而提高数据时效性;对于非实时性的数据应用,则应明确数据的有效期,在分析和应用中只使用需要部分的数据,同时及时清理过期数据。

一致性,描述的是数据是否与数据规范和业务逻辑保持一致。一致性校验是数据采集过程中必须经历的过程,因此在数据定义阶段必须明确每一项数据的格式、约束性和需满足的标准规范。

四、数据可视化

数据可视化是对于数据在视觉表现形式上的研究和发展,旨在借助于图形化手段,清晰有效地传达与沟通信息。在传统的文件办公时代,通过excel的图表功能,已能供提供较为丰富多样的数据图表展现形式。随着信息技术的发展,数据可视化逐渐向全局化、动态化、交互化等方向发展。

数据可视化主要应用于以下几个场景:一是各类报表中数据分析图表的制作,二是信息系统中分析数据的展现和交互,三是数据大屏的整体展现。

数据可视化工具很多,最简单的是各类办公软件集成的图标制作功能。在信息系统开发中可使用到Python或R语言的较为丰富的集成图形绘制功能。如需更进一步扩展整体效果,可使用专用的前端工具,如Echart等JavaScript 类开源可视化库,支持常规的折线图、柱状图、散点图、饼图、K线图,用于统计的盒形图,用于地理数据可视化的地图、热力图、线图,用于关系数据可视化的关系图、treemap、旭日图,多维数据可视化的平行坐标,还有用于 BI 的漏斗图,仪表盘,并且支持图与图之间的混搭。

在数据交互方面,以Echart为例,可支持直接传入包括二维表,key-value 等多种格式的数据源,还支持输入 TypedArray 格式的数据,TypedArray 在大数据量的存储中可以占用更少的内存,大幅度提升可视化应用的性能。通过增量渲染技术,ECharts 能够展现千万级的数据量,并且在这个数据量级依然能够进行流畅的交互操作。