从 PostgreSQL → Data Lake

介绍

如果你用过 Notion，你就会知道它几乎可以让你做任何事情–记笔记、计划、阅读清单和项目管理。

Notion 非常灵活，可以定制用户喜欢的模板。Notion 中的一切都是块，包括文本、图像、列表、数据库行甚至页面。

这些动态单元可以转换成其他块类型，也可以在 Notion 中自由移动。

Blocks are Notion’s LEGOs.

最初，Notion 将所有数据块存储在 Postgres 数据库中。

2021 年，他们拥有超过 200 亿个区块。

现在，这些区块已经增长到两千多亿个实体，2021 年之前，他们将所有区块都放在一个 Postgres 实例中。
现在，他们将数据库分割成 480 个逻辑分片，并将它们分布在 96 个 Postgres 实例上，每个实例负责 5 个分片。

在 Notion，Postgres 数据库负责处理从在线用户流量到离线分析和机器学习的所有事务。

认识到分析用例的爆炸性需求，特别是他们最近推出的 Notion AI 功能，他们决定为离线工作负载建立一个专用的基础架构。

2021 年，他们开始了简单的 ETL 之旅，使用 Fivetran 将数据从 Postgres 采集到 Snowflake，每小时使用 480 个连接器将 480 个分片写入原始的 Snowflake 表。

然后，Notion 会将这些表合并成一个大表，用于分析和机器学习工作负载。

但当 Postgres 数据增长时，这种方法就会出现一些问题：

管理 480 个 Fivetran 连接器简直就是一场噩梦。

Notion 开始建设内部数据湖。

他们希望建立一个能提供以下功能的解决方案：

2022 年，他们启用了内部数据湖架构，该架构使用 Debezium 将数据从 Postgres 增量摄取到 Kafka，然后使用 Apache Hudi 将数据从 Kafka 写入 S3。

对象存储将作为消费系统的终端，为分析、报告需求和人工智能工作负载提供服务。

他们使用 Spark 作为主要数据处理引擎，处理湖泊顶部的数十亿个数据块。
从 Snowflake 迁移的数据摄取和计算工作负载可帮助他们大幅降低成本。
Postgres 的变化由 Kafka Debezium Connector 捕捉，然后通过 Apache Hudi 写入 S3。

Notion 之所以选择这种表格格式，是因为它能很好地应对更新繁重的工作负载，并能与 Debezium CDC 报文进行本地集成。

下面简要介绍一下他们是如何实现该解决方案的：

每台 Postgres 主机一个 Debeizum CDC 连接器。