数据资产管理在个人数据管理和企业数据资产管理中都存在着一些问题。其中,个人数据管理问题反映了企业数据资产管理的现状。在数据交换过程中,由于元数据不清晰,往往导致数据错误和敏感数据泄露,或者多个数据副本无法定位关键的数据信息。为了解决这些问题,国际数据管理协会在2009年4月份出版了一本《数据管理知识体系指南》,该指南汇集了业界长期的数据管理经验,成为许多相关模型的参考。在该指南中,提到以数据治理为核心,支持覆盖数据架构、开发、操作、安全、质量等方面,以及参考数据与主数据、数据仓库和商务职能、文档和内容管理等十大数据管理核心职能。
这些职能在企业中有些已经较为成熟,有些则自成一个大的主题。数据治理渗透到这些主题中,同时也覆盖其他核心职能。类似于个人数据管理的情况,要开始数据治理,首先需要了解“有什么”,也就是数据的可见性。由于数据的抽象性,数据的特征并不容易被人捕捉到,需要进一步的分析才能获得这些信息,这就是元数据。元数据是关于数据的数据,是数据发现过程中比较重要的环节。市场上常见的方法是通过自动化的流程和广泛的数据连通性去扫描获取这些重复的、标准化的分析手段。
然而,除了基本的元数据外,数据从哪里来、到哪里去以及转换变化的逻辑,这些血缘信息往往最难获得。因为这需要具备自动解析复杂SQL语句的能力,或者通过各种ETL工具抽取血源逻辑,或者通过API与对应的模块交互获取血缘信息。在了解“有什么”之后,下一步就需要定义“是什么”,也就是数据的可知性。技术元数据能够告诉我们数据作为产品的样子,但要真正了解数据的区别和使用方法,还需要更多的内容,例如对应到数据端的业务元数据,包括数据所属的项目、相关的业务流程、负责人等。定义业务元数据需要依赖用户自己企业内部的知识图谱建立,并需要业务团队的介入和合适的实施方法论来推进内容的建设,甚至需要进行数据文化的建设。
同时,业务的介入和定义赋予数据成为一项产品的属性,让数据治理、质量把控等行为能够增加数据的商业价值,并支持相关数据治理项目的商业价值定义。数据价值的另一个重要指标是质量。衡量数据质量并没有统一的标准,不同的场景会有不同的衡量维度模型。通常,可以通过抽样或全量方式将质量逻辑下推到特定处理引擎或数据存储系统的查询引擎中执行,如将质量逻辑翻译成通用的SQL语句,对数据库内数据的质量进行分析和汇报。
从数据质量的角度出发,除了针对数据本身的质量衡量,还会将质量信息挂钩到对应的业务主题中,例如个人隐私保护策略可以拆分出个人隐私信息这个主体,然后通过发现过程标记出实际系统中的数据点,并将针对这些数据点的质量信息归纳到上层的各个对象中。所有这些发现、关联、质量把控等数据治理行为最终都是为了服务于数据消费层的“怎么用”,也就是数据的可用性。数据的可用性如同数据的价值一样,不能脱离其关联的上下文而存在。现今所倡导的自助式数据服务并不是单纯要求业务人员学习更深入的技术能力,而是通过整合数据相关的技术与业务,让数据资产能够轻易地被更广泛的数据消费方发现、理解和信任,并支持数据消费的自助化,让数据的使用信息能直观地传达到数据消费的层面。
数据价值的发现与挖掘并不是一个新兴的话题,单纯的技术更迭往往并没有带来数据价值的革新。由于数据与实际业务的需求和上下文脱钩,缺乏有效的治理和质量把控,很多企业都经历了将数据聚集在大数据湖中共享却没有人使用的尴尬项目,最终导致数据湖变成了数据沼泽。因此,形成数据的可见、可知、可用的良性闭环,发挥数据的最大价值,需要建立数据治理的框架和功能核心。