Apache InLong(应龙)是一个一站式海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,同时支持批和流,方便业务构建基于流式的数据分析、建模和应用。 InLong 支持大数据领域的采集、汇聚、缓存和分拣功能,用户只需要简单的配置就可以把数据从数据源导入到实时计算引擎或者落地到离线存储。
1.2.0 版本特性总览
刚刚发布的 1.2.0-incubating 版本关闭了约 410+ 个 issue,包含 30+ 个特性和 190+ 个优化。 主要包括以下内容:
增强管控能力
- Dashboard 和 Manager 增加集群管理能力
- Dashboard 优化数据流的创建流程
- Manager 支持 MQ 的插件化扩展
扩展采集节点
- 支持采集 Pulsar 中的数据
- 支持采集 MongoDB-CDC 中的数据
- 支持采集 MySQL-CDC 中的数据
- 支持采集 Oracle-CDC 中的数据
- 支持采集 PostgreSQL-CDC 中的数据
- 支持采集 SQLServer-CDC 中的数据
扩展写入节点
- 支持将数据写入 Kafka
- 支持将数据写入 HBase
- 支持将数据写入 PostgreSQL
- 支持将数据写入 Oracle
- 支持将数据写入 MySQL
- 支持将数据写入 TDSQL-PostgreSQL
- 支持将数据写入 Greenplum
- 支持将数据写入 SQLServer
支持数据转换
- 支持字符串切割
- 支持字符串正则替换
- 支持字符串正则替换第一个匹配的值
- 支持数据过滤
- 支持数据去重
- 支持 Regular Join
增强系统监控功能
- 支持数据链路心跳的上报和管理
其他优化
- 支持 DataProxy 多集群配置的下发
- GitHub Action 检查、流水线优化
1.2.0 版本特性介绍
支持多集群管理
Manager 增加了集群管理功能,支持多集群配置,解决了只能通过配置文件定义一套集群的限制,用户可根据需要在 Dashboard 创建不同类型的集群。
多集群功能主要由 @healchow、@luchunliang、@leezng 设计和实现,感谢三位贡献者。
增强对文件数据和 MySQL Binlog 的采集
1.2.0 版本支持采集完整的文件数据,同时也支持从 MySQL 的指定 Binlog 位置开始采集数据。该部分工作由 @Greedyu 完成。
支持整库迁移
Sort 支持对整个数据库中的数据进行迁移,此特性由 @EMsnap 贡献。
支持写入 Canal 格式的数据
支持向 Kafka 写入 Canal 格式的数据,此特性由 @thexiay 贡献。
优化 Manager Client 中的 HTTP 请求方式
优化了 Manager Client 中执行 HTTP 请求的方式,并为 Client 增加单元测试,在减少重复代码的同时,降低维护成本。 此特性由新加入的贡献者 @leosanqing 贡献。
支持运行 SQL 脚本
Sort 支持运行 SQL 脚本,详见 INLONG-4405 ,感谢 @gong 贡献此特性。
支持数据链路心跳的上报和管理
此版本支持数据分组、数据流及底层组件的心跳上报和管理,是后续系统各环节的状态管理的前提。此特性主要由 @baomingyu、@healchow 和 @kipshi 设计和贡献。
Manager 支持创建多种流向的资源
1.2.0 版本中 Manager 增加了对部分存储资源的创建:
- 创建 Kafka 的 Topic(@woofyzhao 贡献)
- 创建 Iceberg 的库和表(@woofyzhao 贡献)
- 创建 HBase 的命名空间和表(@woofyzhao 贡献)
- 创建 ClickHouse 的库和表(@lucaspeng12138 贡献)
- 创建 Elasticsearch 的索引(@lucaspeng12138 贡献)
- 创建 PostgreSQL 的库和表(@baomingyu 贡献)
Sort 支持轻量化架构
1.2.0 版本的 Sort 做了大量重构和提升,通过引入 Flink-CDC,支持多种 Extract 和 Load 节点,同时也支持数据的转换(即 Transform)。
此特性包含非常多的子特性,主要的开发者有:@baomingyu,@EMsnap,@GanfengTan,@gong,@lucaspeng12138,@LvJiancheng,@kipshi,@thexiay,@woofyzhao,@yunqingmoswu,感谢各位的贡献。
更多特性信息,请参考:InLong Sort ETL 方案解析。
其他特性及问题修复
相关内容请参考 版本说明 ,其中详细列出了此版本的特性、提升和 Bug 修复。
Apache InLong 后续规划
后续版本,我们扩展更多的数据源端和存储端,覆盖更多的使用场景,并逐步提升系统的易用性和健壮性,主要包括:
- 各组件的心跳上报
- 数据链路的状态管理
- 全链路审计支持写入 ClickHouse
- 扩展更多类型的采集节点和存储节点