一种针对云计算的ETL流程创建及优化方法
作者:jnscsh 时间:2021-07-10 08:51:44 浏览次数:次
摘要:该文针对现有ETL工作流程的创建和执行过程中的不足,提出了一种基于逻辑模型的ETL工作流程优化方法,并针对云计算模式对ETL工作流程的执行进行进一步优化,通过测试这种两阶段优化方法可以大大提高ETL工作流程的执行效率。
关键词:数据抽取;转换;加载;云计算;MapReduce;逻辑模型;流程优化
中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)16-3775-03
A Method of Creating and Optimizing ETL Flow being Aimd at Cloud Computing
TAN Huang
(College of Mathematics and Computer Science, Hunan Normal University, Changsha 410081, China)
Abstract: As for shortage of creating and invoking of ETL Flow , we proposal a method of creating and optimizing ETL flow based on log ic model , and Be aimed at cloud computing we optimizing the invoking of ETL flow .Through these optimization , we can improve the effectiveness of invoking ETL flow.
Key words: ETL; cloud computing; map reduce; logic model; flow optimizing
抽取、转换、装载(ETL)在数据仓库的建立过程中起到了非常核心的作用,它为数据仓库提供及时、高质而准确的数据[1]。目前对于ETL工作流程的创建、执行调度及优化主要有以下几种方法:1)通过配置管理ETL工作流程;2)通过并行优化ETL流程的执行。
通过配置方式构造ETL工作流程,定义针对特定执行环境的ETL工作流程的元数据,开发人员可以根据元数据创建和管理ETL工作流程。其缺点是:1)针对的是特定执行环境,不具备一般性;2)没有对ETL工作流程进行优化。
通过并行优化ETL工作流程执行,是通过将ETL工作流程中的活动分布多个线程或集群上执行,达到提速的目的。其缺点是:1)使用多线程的方式并行化ETL工作流程受限于机器的计算和存储资源;2)在集群环境中执行ETL工作流程,虽然可以将活动并行执行,但是没有考虑集群环境中I/O问题,将其扩展到云计算环境中运行会由于I/O问题降低ETL工作流程的执行效率。
该文针对在云计算环境下创建和优化ETL工作流程,主要解决思路是,定义针对云计算环境的具有一般性的ETL工作流程逻辑模型;对ETL工作流程的逻辑模型进行优化;将ETL逻辑模型转换为针对云计算环境的物理模型;对物理模型进行优化。
ETL工作流程的物理模型中描述了流程活动执行需要的数据操作组件,同时也描述对流程中活动或执行组的MapReduce程序的封装。ETL工作流程执行引擎根据物理模型控制ETL工作流程的执行,并通过云计算环境客户端将物理模型中的MapReduce任务部署到云计算环境中并行执行。
通过对ETL工作流程进行逻辑结构优化以及针对云计算模式mapreduce的优化,我们可以大大提高ETL工作流程的执行效率,但是在使用元数据对ETL进行构造的过程比较复杂,需要比较专业的人员才能完成,所以如何使得该过程简单是我们下一步需要进行的工作。
[1]赵华茗.搭建基于云计算的开源海量数据挖掘平台[J].现代图书情报技术,2010(10):76-80.
[2] Simitsis A. Logical Optimization of ETL Workflows[EB/OL]. http://citeseerx.ist.psu.edu/viewdoc/downloaddoi=10.1.1.66.5268&rep= rep1&type=pdf.
[3] Jeffrey Dean. MapReduce: Simpli_ed Data Processing on Large Clusters. Google Inc.2004
[4]格罗斯曼.信息检索:算法与启发式方法[M].2版.北京:人民邮电出版社,2010.
[一种针对云计算的ETL流程创建及优化方法]相关文章
- 家电电器企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 模具企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 汽修厂注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 水厂(水生产企业)注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 粮食加工企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 陶瓷制品企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 卫生用品企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 医疗器械企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 仪器仪表企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 面粉厂企业注册流程、建厂审批手续、投资办厂流程及所需资料指导文件(全套范文及指导书)
- 创建文明学校工作总结报告
- XX县开展“平安医院”创建活动的实施方案
- 2022市委书记在全市创建全国文明城市总结暨创建国家卫生城市动员大会的讲话(摘要)(完整文档)
- 有关创新服务型基层党组织调研报告-最新
- 2022年度在巩固文明城市创建工作成果推进会议上的讲话材料(精选文档)
- 水木社区文明家庭创建活动工作总结
- 有关加强基层服务型党组织建设意见
- 创建“四星级”党组织实施方案
- 学习贯彻四好班子创建活动意见
- 2020,享优化营商环境情况报告
- 优化营商环境情况报告
- 压气站供配电系统的优化设计
- 试析考虑需求侧管理的微网经济优化运行
- 智能社区综合能源优化管理
- 低碳公路优化设计问题探讨
- TSI系统的应用及优化措施
- 一种内燃捣固镐的设计与优化
- 基于有限元的缸盖优化设计
- 历史图片资料在初中历史教学中的优化运用
- 计算机系大学生实习鉴定
- 计算机网络实习报告
- 大学计算机网络专业个人实习报告
- 计算机技术专业的毕业论文写作指导
- 计算机网络的发展过程论文
- 关于计算机软件版权保护的思考
- 计算机网络安全防护措施方面的论文
- 计算机应用简历范文
- 计算机网络简历范文
- 计算机软件简历范文
- 【方法指导】求解数列通项公式常用方法
- 怎样成为学霸的方法
- 马克思跨越“卡夫丁峡谷”理论的方法论意义
- 从“过敏的汽车”说经济学方法论
- 分次环方法
- 回到历史唯物方法论再看资本创新涌现的“价值”
- 基于INA设计方法的多变量PID控制器设计方法
- 中国艺术史方法论述评
- 广播电视艺术研究方法论述评
- 上一篇:一道课本习题的证明与推广
- 下一篇:基于层次分析法的体育赛事风险定位分析研究