第一文秘网    > 讲话发言

一种针对云计算的ETL流程创建及优化方法

作者:jnscsh   时间:2021-07-10 08:51:44   浏览次数:

摘要:该文针对现有ETL工作流程的创建和执行过程中的不足,提出了一种基于逻辑模型的ETL工作流程优化方法,并针对云计算模式对ETL工作流程的执行进行进一步优化,通过测试这种两阶段优化方法可以大大提高ETL工作流程的执行效率。

关键词:数据抽取;转换;加载;云计算;MapReduce;逻辑模型;流程优化

中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)16-3775-03

A Method of Creating and Optimizing ETL Flow being Aimd at Cloud Computing

TAN Huang

(College of Mathematics and Computer Science, Hunan Normal University, Changsha 410081, China)

Abstract: As for shortage of creating and invoking of ETL Flow , we proposal a method of creating and optimizing ETL flow based on log ic model , and Be aimed at cloud computing we optimizing the invoking of ETL flow .Through these optimization , we can improve the effectiveness of invoking ETL flow.

Key words: ETL; cloud computing; map reduce; logic model; flow optimizing

抽取、转换、装载(ETL)在数据仓库的建立过程中起到了非常核心的作用,它为数据仓库提供及时、高质而准确的数据[1]。目前对于ETL工作流程的创建、执行调度及优化主要有以下几种方法:1)通过配置管理ETL工作流程;2)通过并行优化ETL流程的执行。

通过配置方式构造ETL工作流程,定义针对特定执行环境的ETL工作流程的元数据,开发人员可以根据元数据创建和管理ETL工作流程。其缺点是:1)针对的是特定执行环境,不具备一般性;2)没有对ETL工作流程进行优化。

通过并行优化ETL工作流程执行,是通过将ETL工作流程中的活动分布多个线程或集群上执行,达到提速的目的。其缺点是:1)使用多线程的方式并行化ETL工作流程受限于机器的计算和存储资源;2)在集群环境中执行ETL工作流程,虽然可以将活动并行执行,但是没有考虑集群环境中I/O问题,将其扩展到云计算环境中运行会由于I/O问题降低ETL工作流程的执行效率。

该文针对在云计算环境下创建和优化ETL工作流程,主要解决思路是,定义针对云计算环境的具有一般性的ETL工作流程逻辑模型;对ETL工作流程的逻辑模型进行优化;将ETL逻辑模型转换为针对云计算环境的物理模型;对物理模型进行优化。

ETL工作流程的物理模型中描述了流程活动执行需要的数据操作组件,同时也描述对流程中活动或执行组的MapReduce程序的封装。ETL工作流程执行引擎根据物理模型控制ETL工作流程的执行,并通过云计算环境客户端将物理模型中的MapReduce任务部署到云计算环境中并行执行。

通过对ETL工作流程进行逻辑结构优化以及针对云计算模式mapreduce的优化,我们可以大大提高ETL工作流程的执行效率,但是在使用元数据对ETL进行构造的过程比较复杂,需要比较专业的人员才能完成,所以如何使得该过程简单是我们下一步需要进行的工作。

[1]赵华茗.搭建基于云计算的开源海量数据挖掘平台[J].现代图书情报技术,2010(10):76-80.

[2] Simitsis A. Logical Optimization of ETL Workflows[EB/OL]. http://citeseerx.ist.psu.edu/viewdoc/downloaddoi=10.1.1.66.5268&rep= rep1&type=pdf.

[3] Jeffrey Dean. MapReduce: Simpli_ed Data Processing on Large Clusters. Google Inc.2004

[4]格罗斯曼.信息检索:算法与启发式方法[M].2版.北京:人民邮电出版社,2010.

推荐访问:流程 创建 优化 计算 方法


[一种针对云计算的ETL流程创建及优化方法]相关文章