产品

201511301448867017707.png201511301448867026772.png

数据集成与ETL过程自动化
       数据集成是把不同来源、格式、特点性质的数据通过ETL过程在物理上有机的整合进行集中性存放,形成规范的数据存储。
在数据集成的过程中,整个流程被切分成许许多多的处理任务:
     (1)数据抽取:将数据从业务系统中抽取出来
     (2)数据转化/清洗:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。
     (3)数据质量检查:对来源数据和清洗后的数据进行检查,保证加载后的数据的一致性和正确性。
     (4)数据加载:将清洗后的数据加载到数据仓库中。
而在ETL过程中,还需要对过程进行自动化。一个完整的ETL过程自动化是指对数据从数据源到数据目的的各个处理任务(如抽取、转换、清洗、异常处理、加载等任务)的运行进行有条不紊的组织,使其自动运行下去的一个闭合的处理逻辑。



3. 主要功能
3.1 给数据流增加复杂转换规则
在ETL过程中,数据绝不是简单的从源直接流向目标,而是需要通过一些复杂的转换规则,最终将清洗后的数据加载到目标中去。

3.2 监控数据流中的数据质量
在进行ETL的过程中,需要对数据的提取、转换和加载的数据质量进行监控以保证入库的数据的一致性和准确性。利用久其ETL数据集成工具中的数据校验任务,配合相应的控制文件,可以方便的对源数据进行监控。

3.3 输出错误日志及错误重定向
在ETL过程中,可能存在物理硬件方面,网络,操作系统,程序以及数据本身上的问题,导致数据加载不能成功完成,系统提供了完备的日志管理功能,方便用户进行查看和处理。

3.4 将数据流作为独立作业放入控制流调度
在实际的BI项目实施中,需要将许多数据流和其他一些任务协调配合起来才能够实现整个数据的抽取整合和加载。这些都可以在ETL中作为一个任务在控制流中进行调度。同时,数据流本身也可以作为一个单独的任务在控制流中进行调度。

3.5 ETL自动化与数据质量保证
ETL自动化与数据质量保证的全过程包括了源数据的校验、数据抽取到ODS、ODS数据的完整性校验、ODS数据的入库以及数据质量报告的生成。通过ETL控制流与数据流,结合ETL自动调度功能,将数据的抽取转换和数据的质量保证结合起来。

3.6 数据接口中心
通过提供的ETL通用接口,可以将ETL服务作为数据接口中心,开放提供给第三方厂商。对接收到的异构数据进行清洗、转换后最终加载到本地服务的数据仓库中,实现第三方厂商与本地服务的数据互通。除此之外,实施人员还可以对接口进行授权的分配以及接口的启用/禁用设置,用于对第三方厂商访问接口的控制。

4. 产品特色
      (1)界面易学易用,执行引擎效率高,流程定制所见所得:One-step配置界面实现常用的数据的抽取、转换、质量检查和加载全过程一步到位;内嵌久其工作流引擎,支持分支,合并,流转,状态转移等工作流的基本特征
      (2)多数据源和目标支持:支持数据库、文本、Hadoop集群及其他业务系统在内的多种数据源和数据目标
      (3)丰富的数据转换清洗适配器:内置了多种数据流适配器如表关联适配器、过滤适配器、计算字段适配器等,可以处理大部分的数据操作。对于复杂场景,还提供了API扩展接口
      (4)内置强大的公式引擎:内置六大类近百个函数支持,包括字符串操作、数值运算、日期计算、数据容错、模糊匹配、二进制处理等操作
      (5)通过自定义脚本及命令行扩展系统功能:支持Javascript脚本语言或操作系统命令行来扩展对数据的处理,如发送邮件
      (6)结构化的异常处理机制
      (7)强大的流程调度支持:支持定时触发、依赖触发、状态触发和文件触发等各种调度模式



广州好档家信息科技有限公司版权所有

Powered by 好档家 v1.0.1 粤ICP备12039937号-5
Designed by :RuiyunTech