05.TiDB分布式一致性常识原理

TiDB 采用 Percolator 模型，通过 MVCC 和 2PC 实现分布式事务的高效一致性

每个事务通过 PD 分配的时间戳控制可见性与一致性，确保跨节点数据的原子性

事务执行分为准备和提交阶段，通过 Prewrite 和 Commit 处理读写，避免锁争用

与 MySQL 单机事务模型不同，TiDB 适用于大规模分布式场景，支持全局时间戳和快照读，提升了并发和读写性能

# 01.背景说明

在分布式数据库中，事务操作通常会跨越多个节点

而事务的一致性要求确保每个节点的数据修改都必须符合

ACID（Atomicity、Consistency、Isolation、Durability）属性，尤其是原子性和一致性

实现分布式事务时，最大挑战在于如何保证事务操作在不同存储节点上的一致性，同时避免性能瓶颈

Percolator 模型针对分布式场景，提供了一种轻量级、高并发的事务管理机制，解决了以下问题

Percolator 模型的核心机制是基于 2PC（二阶段提交） 实现的

每个事务的执行过程分为两个阶段：准备阶段 和 提交阶段

二阶段提交（2PC）是分布式事务模型的关键组成部分，确保跨多个 TiKV 节点的事务可以一致提交或一致回滚

开始事务：事务开始时，客户端向 PD 请求分配一个全局唯一的时间戳，称为 StartTS，作为当前事务的起始时间
锁定资源：
事务要修改的数据分布在多个 TiKV 节点上在第一阶段，事务会在这些节点上对所有需要修改的 key 加锁，这种锁称为 悲观锁 或 乐观锁，具体视事务模式而定
- 每个 key 的锁都会记录当前事务的 StartTS，以确保其他事务无法在该 key 上并发写入
写入 Prewrite：
- 在锁定数据后，TiKV 会为每个参与的 key 写入一条 Prewrite 记录，其中包含事务的 StartTS 和待提交的新数据版本
- Prewrite 是一种临时数据，它表明该 key 正在被修改，但尚未正式提交

提交事务：
- 在所有 key 都成功写入 Prewrite 之后，事务进入提交阶段TiDB 为当前事务请求一个新的时间戳，称为 CommitTS，作为事务提交的标识
- 提交事务 时，TiDB 将所有 key 的数据从 Prewrite 状态更新为正式提交状态，即写入 CommitTS 并将数据的版本标记为 CommitTS
事务提交成功：
- 一旦所有 key 都成功写入 CommitTS，事务被认为成功提交，其他事务在读写这些 key 时，将使用 CommitTS 对应的版本数据
回滚处理：
- 如果在提交过程中任一阶段出现错误（例如某个 TiKV 节点无法响应），事务会自动进入回滚流程
- 回滚操作 会清除对应 key 的 Prewrite 记录，恢复数据的原始版本，确保数据的一致性

在 TiDB 中，每次写操作生成的新版本都会附带时间戳，并存储在 TiKV 中的 RocksDB 引擎中通过 MVCC，每个 key 存储多个版本，旧版本不会被立即覆盖，而是根据时间戳保存下来TiDB 在读取数据时，会根据事务的 StartTS 确定当前事务能够看到哪些数据版本

TiDB 支持 可重复读（Repeatable Read） 的事务隔离级别这意味着：

与 MySQL 类似，TiDB 通过 MVCC 机制，结合事务的时间戳，实现了类似 快照读 的行为，从而避免了锁的争用

分布式架构：
- TiDB 基于 Google 的 Percolator 模型，主要解决大规模分布式场景下的事务一致性问题
- 而 MySQL 的传统事务处理主要面向单机环境
- 通过 binlog 和主从复制机制实现容灾和高可用，但在分布式环境下处理跨节点事务时显得力不从心
全局时间戳：
- TiDB 依赖于 PD 提供的全局唯一时间戳，保证分布式事务的顺序性和一致性
- MySQL 没有全局时间戳的概念，事务的时间序列性更多依赖于本地的自增 ID 或 binlog
事务隔离性：
- TiDB 的 MVCC 和 Percolator 结合使得它天然支持分布式事务的隔离性，并通过快照读避免锁的争用
- MySQL 则依赖于锁机制和 undo log 来保证隔离性，虽然同样支持 MVCC，但其设计主要针对集中式环境

上次更新: 2024/10/15 16:27:13