第一十二章 数据抽取、转换和加载
第四节 利用ETL构建企业级数据仓库
1)在构建数据仓库系统的时候,通常的做法是将业务系统部署在一台服务器中,而数据仓库系统部署在另外一台服务器中,如图12-34所示。考虑到数据仓库系统需要从业务系统中不断访问数据,而且数据量较大,所以需要在数据仓库系统和业务系统之间建立一个数据缓存区,如图12-35所示。通过ETL先将业务系统中的数据抽取到数据缓存区中,然后再对数据缓存区的数据进行处理,这样就可以避免数据仓库系统频繁地访问业务系统,防止在业务系统中进行大量的整合、计算等工作,降低了对业务系统性能的影响。数据抽取的频率可以是每天或者每月,因为数据缓存区域只保存当前的实时数据,数据量相对较小,在数据缓存区中进行转换、清洗、整合的操作,效率相对较高,这样不仅提高了数据仓库系统的整体性能,同时也保证了数据的一致性。
图12-34 数据仓库直接访问数据源
图12-35 建立数据缓存区
2)构建企业数据仓库需要充分发挥时间戳的作用。在ETL过程中,通常把时间戳作为抽取的标识,例如从业务系统中抽取每天的数据,就可以使用时间戳作为抽取的条件。
3)在构建企业数据仓库时,可以使用ETL过程中产生的日志信息去查看数据处理的情况,日志一般记录了ETL过程中产生的详细信息,包括数据抽取成功的次数和记录数,数据抽取失败的次数和记录数等内容。可以根据日志信息对构建企业数据仓库过程中产生的问题进行修改和调整。