基础架构
批处理
数据存储
实时处理
数据集成
工作流
数据质量
可视化
数据湖
首页
Java
Bigdata
React
Python
Database
Docker
AI
搜索标题...
基础架构
Hadoop
分布式系统基础架构,包含HDFS和MapReduce
ZooKeeper
分布式协调服务,用于管理大型分布式系统的配置和命名
批处理
Hive
基于Hadoop的数据仓库工具,提供SQL查询
Spark
快速的大规模批处理引擎
Presto
用于大数据的分布式SQL查询引擎,支持多数据源查询
Kylin
开源的分布式分析引擎,提供快速的多维分析能力
Trino
PrestoSQL的延续,支持跨多种数据源的高性能SQL查询引擎
数据存储
HBase
分布式、可扩展的大数据存储数据库
实时处理
Flink
强大的开源流处理和批处理框架
Kafka
高性能的分布式流处理平台
Confluent
Kafka 创始团队打造的企业级流数据平台,提供 Kafka 增强功能与云服务
数据集成
SeaTunnel
高性能分布式数据集成平台,支持多源数据同步与实时采集
DataX
阿里巴巴开源的离线数据同步工具,支持多种异构数据源之间的数据传输
工作流
Airflow
可靠、可扩展的工作流自动化平台
DolphinScheduler
分布式易扩展的可视化工作流任务调度平台
Apache Hop
开源的数据编排平台,专注于数据流水线开发和工作流管理
Azkaban
批量工作流作业调度平台,常用于数据仓库ETL调度
数据质量
Great Expectations
开源的数据验证框架,用于构建数据质量监控体系
可视化
Metabase
开源的商业智能工具,支持零代码的数据可视化与仪表盘构建
FineBI(帆软)
国产可视化分析平台,支持自助数据分析、仪表盘与多维数据建模
Tableau
全球领先的数据可视化分析工具,支持交互式仪表盘与强大图表渲染
数据湖
Iceberg
高性能开源表格式,用于构建支持事务的数据湖,兼容Spark、Flink等
Hudi
支持实时数据写入和增量查询的数据湖引擎,适合构建近实时仓库
Apache Paimon
高性能流批一体表格式,支持增量更新、主键合并,适用于实时湖仓一体架构
...