大数据审计平台构建研究

发布时间：2020-01-08浏览次数：3000

作者：刘国城，王会金

原文出处：《审计研究》(京)2017年第20176期第36-41页

大数据审计是专业审计主体以大数据为背景，依照特定的规范，运用审计科学与大数据科学的程序与方法，对被审单位的重大财务事项、经营管理活动以及相关资料的可靠性通过大数据取证而实施的一种独立的监督活动。近年来，我国政府对大数据审计建设高度重视。2014年10月，《国务院关于加强审计工作的意见》指出“构建国家审计数据系统，探索在审计实践中运用大数据技术”；2015年12月，两办印发《关于实行审计全覆盖的实施意见》文件提出“构建大数据审计工作模式，适应大数据审计需要，构建国家数字化审计平台”。当前，我国亟需一系列丰富的大数据审计理论对实践进行指导，进而大幅提升审计主体运用信息化方式挖掘问题、评价判断与宏观分析的能力。鉴于此，本文基于审计大数据采集、预处理、分析、可视化等模块，深层次探索大数据审计平台的建设机理。

　　一、相关理论回顾与分析

　　（一）大数据审计理论的研究动态

　　国内关于大数据审计的理论研究主要集中于两个方面：一是大数据对传统审计的影响。大数据技术对审计范围、抽样技术、取证模式、报告方式等方面都产生深远影响（秦荣生，2014；鲁清仿等，2015；魏建祥，2016）；二是大数据下审计模式与路径的变革。郑伟等（2016）构架大数据环境下数据审计的模式框架，王崇业等（2017）通过嵌入大数据思维分别提出财务报告审计重构模型。国外有关大数据与审计的关联研究较零散，M Cao等（2015）论述大数据分析如何提升财务报表审计的效率和效用；Helen Brown-Liburd等（2015）分析大数据环境下审计师遇到的挑战，以及如何生成审计证据与整合审计过程。学术界对于大数据审计的文献积累相对偏少。当前大数据审计研究存在的重要问题是研究视角基本停留在社会科学领域，仅就“审计学科”论述大数据审计，基于“数据科学”与“信息科学”等视角阐释大数据审计运行机理的文献较少，且不够深入。在未来，大数据审计理论研究应予基于“工程学”视角，深化大数据技术在审计领域的广泛运用，深层次论证数据挖掘、机器学习、可视化等理论在大数据审计平台中的运作机制，从“技术”层面真正实现“大数据审计”理论研究“质”的飞跃。

　　（二）大数据审计实务的发展动态

　　2017年4月，世界审计组织大数据工作组首次会议在南京召开，世界各国在大数据审计工作中都积累了一定的经验。英国在大数据审计分析中重点关注文本挖掘与机器学习的引入。美国通过立法确保审计大数据采集的准确性与可靠性，并在审计大数据分析中广泛应用数据挖掘技术、并行计算方法以及Hadoop、SPSS等软件与工具。挪威运用R/Shiny等开放源代码软件深入开发大数据审计应用程序。泰国基于ppapt等管理工具建立大数据审计应用软件包，并运用访问控制列表保障审计大数据安全。近年来，我国大数据审计实务工作进展有序，但存在数据容量不够大，缺乏对大数据预处理、建模与分析等方面的技术与方法的系统性应用等问题。

　　（三）大数据审计平台建设的理论分析

　　大数据审计平台的构建遵循系统论、结构论、协同论与控制论等思想。大数据关键技术涵盖采集、预处理、存储与管理、分析与挖掘以及展现与应用等五项技术层面。大数据审计平台涵盖若干子平台，依照特定逻辑融合于一体。为全方位将大数据处理技术融合于大数据审计平台建设，全视角呈现大数据审计综合平台的设计过程，本文特别选取上述五项技术分类作为理论依据将大数据审计平台分拆为采集、预处理、分析与可视化四个子平台作以研究，其中，存储技术纳入预处理平台之中。确立子平台时，必须基于细节，深层次、系统性地发现特定审计大数据对象的内在本质与逻辑规律，熟悉其任务需求。只有这样，才能做好相关子平台的流程分解与功能分解，才能科学确立子平台下的“主题技术库”，有效选定各个子平台的“过程建模群”，进而基于战略层面高效提升大数据审计总体平台建设的质量与水平。本文以交叉学科理论的相互融合为研究视角，通过四个子平台的分拆，强化大数据分析的应用，尝试相应技术在子平台实际需求下的运用，力求以“应用技术群”为轴心，丰富不同建模技术之间的比较分析，有效推进大数据审计实务的流程化、抽象化与智能化。

　　二、审计大数据采集平台的建立与运行

　　大数据时代，审计数据采集渠道广泛延伸，主要涵盖：互联网平台下的媒体资讯、门户网站、搜索引擎以及社交网络等数据；被审单位货币性数据，以及经营战略、技术研发、社会关系、治理能力、组织环境等一系列非货币性数据；审计主体内部的经验数据、业务数据、管理数据以及预测数据；其他渠道，如日志数据、传感数据、经济数据、行业数据、政策数据，等等。审计大数据并非上述渠道的散乱式获取与机械化堆砌，而是在特定逻辑框架下的指导性定域与有机化融合。图1中，审计署关于审计数据工作“五个关联”要求为审计大数据采集提供了科学的指导，提供了审计大数据采集的针对性、目的性、关联性与时效性，避免了数据全范围采集，减少了数据过载与人力耗费。基于审计层面的大数据采集技术有很多（图1）。对于结构化与半结构化审计数据的采集，可以运用AO、Oracle、SQL Server等技术。此外，Facebook、Apple等公司分别开发Scribe、iOS与Chukwa等数据采集工具，审计主体可以基于数据采集的功能需求、设计策略与应用环境予以改进，建立适用于自身的非结构化数据采集技术方案。

　　过程建模是审计大数据采集平台构建的关键环节，它依托于Hadoop、HBase以及RDBMS等基础平台，受数据采集标准与规范所约束，并寓于数据采集下技术工具、单元分布与平台应用等支持模块之中。审计大数据采集建模主要包括：①传输。审计主体可以运用Sqoop工具建模，在postgresql、mysql等数据库与Hadoop等系统之间实现数据互动，在Hive、HBase与RDBMS之间进行数据传递。②接入。数据接入的作用是数据缓冲，主要解决数据采集与预处理的速度非同步问题。审计主体可以利用Kafka系统同步接入浏览与搜索等有关于网络的所有动作流数据，同时执行有关于数据接入的上线处理、实时处理与离线处理。现实中，有许多成熟的数据采集建模平台可供审计主体借鉴，如Splunk、Flume、Fluentd与Logstash等，其中，Splunk平台通过Search Head进行数据的聚合与搜索，依托Indexer执行数据的提取与索引，运用Forwarder实现数据的收集、变形与发送；Flurne平台支持任何格式的分隔符文件，支持Netcat、Thrift、Avro等各类源协议，支持审计流数据源动态传输实时数据至HBase或HDFS之中，是高扩展的开源性数据采集平台。

　　三、审计大数据预处理平台的建立与运行

　　审计大数据预处理平台由数据的存储、抽取、清洗、转换与装载等模块组合而成（图2）。近年来，审计大数据存储基本采用传统存储模式，主要基于IDE、SAS、SCSI、FC、SACA等接口实现服务器和硬盘的连接。当前，审计云平台出现，新兴的Hadoop分布式存储系统运用网络联结各离散存储单元，凸显无接入限制、低成本以及高可扩展性等优势，该系统融合MapReduce（并行处理）与YARN（作业调度），它将成为审计大数据主流的网络存储模式。审计主体应予熟知各类分布式存储技术，其核心是网络存储技术，它包括iSCSI、DAS、SAN与NAS，此外还涵盖高效元数据管理、系统弹性拓展、应用和负载的存储优化、存储层内优化、数据动态调度与优化、数据容灾以及针对存储器特性的优化等技术。审计主体需要基于大数据结构特征选取适用的数据存储子系统，对于结构化数据，采用分布式数据库存储；对于简单式半结构化数据，采用分布式键值存储；对于复杂式半结构化数据，采用分布式表格存储；对于视频、图片等非结构化数据，则采用分布式文件存储。

　　审计大数据抽取有全量抽取与增量抽取，全量抽取是将源数据库中的全部数据进行复制与迁移，增量抽取是在前者基础上抽取自源表中新增、删除、修改的数据，其具体方法包含时间戳、触发器、日志对比与全表对比。审计主体应予建立适用于自身的大数据抽取方案，如Web结构化数据可以采用页面标签抽取算法，半结构化数据可以采用基于本体的Web信息抽取算法，非结构化数据可以选择基于规则的数据抽取算法。此外，还有基于工作流、元数据抽取以及标签树匹配的系列抽取模型以供大数据审计借鉴。数据清洗对提高审计大数据质量至关重要，对于数据一致性检测以及缺失值与无效值的处理，有诸多传统方法可供审计主体运用，如优先队列算法、排序邻居算法以及基于粗糙集、聚类分析与遗传神经网络的清洗技术等。当前，新兴技术“云清洗”出现，其依托Hadoop框架，运用MapReduce模型，支持大数据清洗领域的广泛清洗操作。审计主体应予将其纳入预处理平台，基于实体识别、不一致性检测与修复、缺值填充以及真值发现等视角，完善审计大数据清洗规则，丰富噪声数据清洗理念，科学判定数据清洁度。

　　数据转换涵盖数据量纲的改变、数据格式的转化、数据内容的截取以及数据的拆分与合并。图2中数据转换模块的运行需要关注五个方面，即SQL Server、MySQL、Oracle等各类数据库之间数据的转换，CSV、XML、ADO.NET与XSLT等不同格式数据文件的转换，消息队列中的格式转换，不同数据模型之间的转换，以及特定数据模型下内容与结构的转化。审计主体应该借鉴ODBC、MD5、OLEDB等系列数据转换算法，基于本质实现由主控节点向管理节点再向子节点的层次转变。数据加载是将转换后数据保存至主题数据仓库的过程，审计大数据加载方式主要有基本加载、追加加载、破坏性合并与建设性合并。数据加载模块下，审计主体应依据所属加载方式，融合SQL Loader、World Wind、并行式数据加载以及分布式数据加载等相关技术，确定加载规则，全方位将价值数据映射至主题数据库相应字段之中，力求实现目标数据的批量装载。

　　四、审计大数据分析平台的建立与运行

　　面向未来的审计大数据分析平台的构建，审计主体需要深度融合Hadoop平台并以此作应用支撑（图3）。对于审计大数据而言，Hadoop平台的组件相对完备，其中，MapReduce框架由MAP、Reduce与main等函数相整合，适用于海量审计大数据集合的并行运算；HDFS文件系统可以为审计主体提供高吞吐量的流式访问；HBase数据库适用于非结构化审计大数据的分布式存储；Pig流处理为复杂审计数据的并行计算提供若干编程接口，优化MapReduce运算；Hive数据仓库工具支持类似SQL语言的查询功能，适用于将SQL审计语句变换为MapReduce任务进而开展审计大数据常规性分析；Avro工具可便捷压缩二进制数据并序列化，适用于远程大规模审计数据的交换应用以及动态语言结合；Zookeeper运用层级命名空间实现分布式集群系统的进程协作，支持审计大数据分析的域名服务、组服务、分布式同步与配置维护。Hadoop Manager涵盖安装、部署、配置、监控、告警与访问控制等服务，其任务是基于上述层面实现Hadoop基础框架与审计大数据分析平台的对接与融合，以Hadoop应用为视角对大数据审计分析实施全局管理与集群监控。

　　构建审计大数据分析平台必须依托过程建模，建模的动力因素涵盖：①分布式并行处理。审计主体借助分布式并行处理系统，才能将海量目标数据分割成块，由多台计算机协同处理，并基于时间与空间的并行计算同时执行多项指令，及时扩充问题求解规模进而解决复杂审计计算；②引擎组件。审计主体可借助云引擎开展各类功能的应用设计，也可运用同一个“云”执行不同需求的审计分析。工作流是开发适用的过程逻辑并确保审计分析的弹性、易维护性与稳定性，审计主体需要基于流向管理、流程的节点管理与流程样例管理，运用分片式处理器增强审计分析的引擎，促进审计分析的同步实施与效率优化。③方法库。分析建模的适用方法有很多，如传统统计分析、自然语言处理、MOLAP技术、OLAP分析、语义分析、SQL查询等，其中，数据挖掘技术与机器学习算法是大数据审计分析的核心手段。④相关软件工具。审计大数据分析平台需要融合现有成熟的分析软件，如SPSS、SAS、R语言、OA、RapidMiner、Oracle、Iat aBridge、HPCC、KNIME与Weka等。⑤Open API。其为审计大数据分析平台提供与第三方系统开放式扩展的数据应用接口。过程建模恰恰在上述诸多因素的驱动下，实现有关审计大数据分析的模型策划、维度分析、算法调度、任务执行、模型校验与模型评估，进一步推进审计大数据分析的智能化建设。

　　数据挖掘是审计大数据分析的高层级应用，其在图3的运用可分为两个步骤：一是数据降维，二是挖掘模型算法设计。审计大数据降维方法有线性与非线性之分，它们具体包括主成分分析、独立成分分析、线性判别分析以及基于准点、统计相关与自适应的降维算法等。挖掘模型算法可分为有监督与无监督两类。数据挖掘关键在于从上述系列技术中如何选择最为合理的方式，发现审计大数据的结构与关系，执行简约计算与群智计算，深度挖掘审计信息中的内在知识与规律。机器学习是一种使获取知识自动化的计算方法的智能学习，其广泛应用于金融等众多领域。在图3中，可适用的机器学习算法包括K近邻法、支持向量机以及Bagging、Boosting等集成学习。数据挖掘中大部分取证分析工作都是运用机器学习所实现的，机器学习算法是数据挖掘的核心构成，其深度融合于审计大数据挖掘技术应用之中。审计主体应用数据挖掘与机器学习的共同任务为：①构架计算机系统与审计相关者之间的自然语言接口；②构造不完全审计信息的推理机制，加强自动规划审计大数据分析建模问题的能力；③掌握与模拟和大数据审计分析相关的学习过程，建立可发现新证据的智能审计流程；④优化机器学习在数据挖掘的分类、预测、关联与侦查等方面的运用，辅助数据挖掘完成其相应目标；⑤建立正确的挖掘模型，实现大数据下的科学审计取证。

　　五、审计大数据可视化平台的建立与运行

　　审计大数据可视化是基于计算机辅助设计、图像处理、信号处理、图形学以及计算机视觉等学科知识，运用计算机图形图像处理等相关技术，将审计大数据信息的内在结构转换为图形或图像的形式进行显示，并实施交互处理。图4的可视化平台涵盖两个层面：一是可视化交互分析，它是图3分析平台中审计知识创造的延续；二是可视化结果展示，它是立体化呈现审计证据的关键要项。人机交互与人工智能是可视化平台运行的基础引擎，智能主体如何由审计主体转换为理解可视需求的计算机，如何模拟人类智能将大量的隐性数据按需取舍，如何基于审计认知在界面中智能化分析与展示显性规律，这些都直接影响着审计的科学取证。此外，图4平台还将依托四项可视化分类服务支持，它们分别是将非结构化审计文本转换为有结构且可视的文本可视化，将互联网的关联关系与层次结构数据转换为审计仿真界面模式的网络可视化，将时间标签与地理位置的多态高维审计数据转化为立体迁移图示的时空数据可视化，以及将若干维数下的属性数据转换为直观维度审计规律的多维数据可视化。

　　审计大数据可视化平台必须借助一系列方法才能实现审计数据向表格、图像、图形、地图、文件和标签云图等形式的转换。当前，已有众多方法可供审计主体运用，它们既适用于可视化建模分析，同时也适合于可视化结果呈现。对图4而言，在技术方面，可以选择旋转坐标系折现、散点图矩阵、维入栈以及基于图标、层次、几何与像素等可视化技术；在算法方面，可以选取颜色映射、矢量场、张量场、并行绘制以及基于GPU的快速绘制等可视化算法；在语言方面，可以选定C、R、VB、Matlab以及UML等可视化语言；在软件方面，可以选用Springy、Protovis、Processing、Sigma.js、TimeFlow、Gantti以及GeoCommons等可视化工具。例如，对于资源离任审计，审计主体可以利用R语言以及ArcGIS等工具对被审区域的林业、土地等地理资源空间数据，在图3基础上实施拓扑叠加分析，基于卫星遥感影像比较该区域自然资源的历年变化，有效解决在审计实践中所遇到的障碍。

　　图4的可视化交互分析过程相对复杂，其基本原理是首先运用可视化映射将数据表转化为可视化结构数据，然后再运用视图转换将可视化结构数据转化为立体视图信息。可视化映射是人与计算机之间对于视觉信息的认知、应用与互动的方式，它由5项要素构成，其中，任务、领域对象与用户为抽象要素，对话与表征为具体要素。审计主体应予事先估测特定任务下最终视图的可能状态与基本知识，以及如何使用颜色、光亮度、形状等各类属性表现最终视图中所隐藏的特征与本质，并基于此优化参数配置，构建抽象要素与具体要素彼此之间的一对一映射模型，借助可视化方法有效生成可视化结构数据。视图转换即图形绘制，审计主体应予运用可视化工具，基于颜色量化、观察变换、图像几何变换、扫描转换与图像动态输出等要项，集合图形节点，梳理节点关联，树立视图容器标识，建立图像转换模型，设计视图动态原语，描述建模对象的状态转化，全力促进立体化目标视图生成。可视化结果呈现是在对目标视图进行评价、修正与优化的基础上，将审计大数据分析结果直观形象地展示于审计主体面前，促进审计疑点发现。