1背景
越来越多的企业希望汇集数据,实现数据驱动决策,优化业务敏捷性。
但是大规模、集中的数据存储也带来了新的隐私和治理问题。
集中式数据存储库为攻击者提供了更加诱人的目标,并且敏感数据和有价值的IP无法随需应变地满足业务需求。
2世平首发 | 企业数据发布整合体系
针对以上问题,世平信息首次公开发布“企业数据发布整合体系”,如下图所示:

数据源
数据源主要包括流/查询/IOT、API、文件/SAN/NAS、数据库/数据仓库等。
流处理
流处理是一种允许用户在接收到数据后的短时间内快速查询连续数据流和检测条件的技术。检测时间从几毫秒到几分钟不等。流处理通常用于实时分析、流式分析、复杂事件处理等。
ETL技术
数据提取、转换和加载(Extraction-Transformation-Loading,ETL),是将分散、零乱、标准不一、编码不一致的数据整合到目标数据库中的技术。
它从各种原始的业务系统中提取数据,按照一定的规则进行数据转换,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为后续数据处理的基础。
批处理
批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征:
有界:批处理数据集代表数据的有限集合
持久:数据通常始终存储在某种类型的持久存储位置中
大量:批处理操作通常是处理海量数据集的唯一方法
批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。
发布引擎
感知算法
感知算法主要采用自然语言处理的内容识别技术,包括基于关键词的内容识别、正则表达式的内容识别、数据分类脚本、文件元数据识别、指纹识别、文本分类、聚类等算法。
脱敏算法
常见的脱敏算法包括删除、替代、数值变换、加密、遮挡、空值插入、混洗等。
匿名算法
匿名算法通过概括和隐匿技术,发布精度较低的数据,使得每条记录至少与数据表中其他k-1条记录具有完全相同的准标识符属性值,从而减少链接攻击所导致的隐私泄露。
数据共享发布
发布引擎能够为商业智能、分析、开发、测试、第三方合作等过程创建安全的数据。
3体系价值
加速DaaS供应
发布引擎为DaaS(数据即服务)基础设施提供了数据隐私层,从而减少在整个企业中提供隐私保护数据集所需的成本、时间,减少新数据驱动项目的前置时间,具有健壮的、可重复的过程。
保护隐私
保护从 源 移动到 目标 时的敏感数据,同时保持数据集的引用完整性。
提供数据驱动的洞察力
实现标准化的策略规则,从规模上识别敏感数据,同时保留数据效用。
确保隐私的规模
在整个企业中复制去标识策略,简化遵从性,同时实现隐私策略的集中管理、控制和自动化。
减少内部违规风险
通过员工和合作伙伴的授权访问防止数据泄露,每个数据集都具备私密性。
在数据平台体系结构中集成发布引擎
在部署于云环境的前提下,利用数据流和流处理,如NiFi、Kafka等,将ETL过程和工具结合起来。
提高效率
以自动化策略最小化数据通道中的人工干预。