其他
ELT已死,EtLT才是现代数据处理架构的终点!
@
点击蓝字
关注我们
ETL时代(1990-2015)
ELT时代(2005-2020)
EtLT (2020-未来)
云、SaaS、本地混合复杂数据源 数据湖与实时数据仓库 新一代大数据联邦(Big Data Federation) AI应用大爆发 企业数据社群(Data Community)分裂
EtLT架构应运而生!
E(xtract)抽取:从数据源角度来看,支持传统的线下数据库、传统文件、传统软件同时,还要支持新兴云上数据库、SaaS软件API以及Serverless数据源的抽取;从数据抽取方式来看,需要支持实时CDC(Change Data Capture)对数据库Binlog日志的解析,也要支持实时计算(例如Kafka Streaming),同时也需要支持大批量数据读取(多线程分区读取、限流读取等)。 t(ransform)规范化:相对于ETL和ELT,EtLT多出了一个小t,它的目标是数据规范化(Data Normalization)将复杂、异构的抽取出来数据源,快速地变为目标端可加载的结构化数据,同时,针对CDC实时加载Binlog进行拆分、过滤、字段格式变更,并支持批量和实时方式快速分发到最终Load阶段。 L(oad)加载:准确的说,加载阶段已经不是简单的数据加载,而是配合Et阶段,将数据源的数据结构的变更、数据内容的变更以适合数据目标端(Data Target)的形式快速、准确的加载到数据目标当中,其中,对于数据结构的变化要支持同源数据结构变更(Schema Evolution),数据加载也应该支持大批量加载(Bulk Load)、SaaS加载(Reverse ETL)、JDBC加载等。确保既支持实时数据和数据结构的变化,还要支持大批量数据快速加载。 (T)ransform转化:在云数据仓库、线下数据仓库或新数据联邦的环境下,完成业务逻辑的加工,通常使用SQL方式,实时或批量地将复杂业务逻辑准确、快速变为业务端或者AI端使用的数据。
EtL阶段:以数据工程师为主,他们将复杂异构的混合数据源,变为数据仓库或者数据联邦可加载的数据,放到数据存储当中,他们无需对企业指标计算规则有深入理解,但需要对各种源数据和非结构化数据变为结构化数据转化有深入理解。他们需要确保的是数据的及时性、数据源到结构化数据的准确性。 T阶段:以数据分析师、各业务部门数据SQL开发者、AI工程师为主,他们深刻理解企业业务规则,可以将业务规则变为底层结构化数据上的SQL语句进行分析统计,最终实现企业内部的数据分析和AI应用的实现,他们需要确保的是数据逻辑关系、数据质量以及最终数据结果满足业务需求。
EtLT 架构开源实践
大模型的支持
Apache SeaTunnel
Apache SeaTunnel 是一个分布式、高性能、易扩展、用于海量数据(离线&实时)同步和转化的数据集成平台
精彩推荐
一键三连-点赞在看转发⭐️!