二级索引在索引覆盖时如何使用MVCC？

问题

二级索引在索引覆盖时如何使用MVCC？

答案

核心概念

二级索引（辅助索引）本身不包含MVCC所需的隐藏字段（DB_TRX_ID、DB_ROLL_PTR），在索引覆盖查询时，InnoDB需要通过回表到聚簇索引获取行记录的版本信息来判断可见性。

1. 索引结构回顾

聚簇索引（主键索引）

聚簇索引叶子节点包含完整行数据：
+----+------+-----+------------+--------------+--------+
| PK | col1 | col2| DB_TRX_ID  | DB_ROLL_PTR  | ...    |
+----+------+-----+------------+--------------+--------+
| 1  | Tom  | 20  | 100        | 0x1A2B3C     | ...    |
+----+------+-----+------------+--------------+--------+

二级索引（辅助索引）

二级索引叶子节点只包含索引列+主键：
+-----------+----+
| idx_col   | PK |  (无事务ID、回滚指针)
+-----------+----+
| 'Tom'     | 1  |
+-----------+----+
| 'Jerry'   | 2  |
+-----------+----+

关键点：二级索引中没有DB_TRX_ID和DB_ROLL_PTR字段。

2. 问题的本质

索引覆盖查询

-- 假设有索引：INDEX idx_name_age(name, age)

-- 索引覆盖查询（只查询索引列）
SELECT name, age FROM user WHERE name = 'Tom';

疑问：二级索引没有事务ID信息，如何判断该记录的可见性？

3. InnoDB的解决方案

方案：通过主键回表获取版本信息

即使是索引覆盖查询，InnoDB仍需要回表到聚簇索引获取隐藏字段，判断可见性后再返回结果。

详细流程

1. 扫描二级索引 idx_name_age
   ↓
2. 找到符合条件的索引项：('Tom', 20, PK=1)
   ↓
3. 使用PK=1回表到聚簇索引
   ↓
4. 读取聚簇索引行的 DB_TRX_ID 和 DB_ROLL_PTR
   ↓
5. 根据ReadView判断该版本是否可见
   ↓
6. 如果可见，返回 name='Tom', age=20
   如果不可见，沿着Undo Log版本链查找可见版本
   ↓
7. 返回最终结果

4. 实战演示

场景准备

-- 建表
CREATE TABLE user (
    id INT PRIMARY KEY,
    name VARCHAR(50),
    age INT,
    INDEX idx_name_age(name, age)
);

-- 初始数据
INSERT INTO user VALUES (1, 'Tom', 20); -- DB_TRX_ID=50

并发场景

-- 事务A（trx_id=100）
START TRANSACTION;

-- 第一次查询（索引覆盖）
SELECT name, age FROM user WHERE name = 'Tom';
-- 生成ReadView: {m_ids: [100], min_trx_id: 100, ...}

-- 事务B修改数据（trx_id=101）
START TRANSACTION;
UPDATE user SET age = 30 WHERE id = 1;
-- 聚簇索引：age=30, DB_TRX_ID=101
-- Undo Log：age=20, DB_TRX_ID=50
COMMIT;

-- 事务A再次查询（RR级别，索引覆盖）
SELECT name, age FROM user WHERE name = 'Tom';

查询执行过程

事务A第二次查询：

1. 扫描二级索引 idx_name_age
   找到：('Tom', 索引中age可能是旧值或新值*, PK=1)

2. 使用PK=1回表到聚簇索引
   读取到：age=30, DB_TRX_ID=101

3. 判断可见性
   - trx_id=101 在ReadView的m_ids中？
   - 如果101已提交，101 < min_trx_id(100)? NO
   - 101在m_ids中？NO（因为101是在ReadView生成后提交的）
   - 根据RR级别，101 > ReadView创建时的max_trx_id? 可能YES
   - 结论：101不可见（事务A应该看不到）

4. 沿着Undo Log版本链查找
   找到：age=20, DB_TRX_ID=50

5. 判断可见性
   - trx_id=50 < min_trx_id(100)? YES
   - 可见！

6. 返回：name='Tom', age=20

注意：二级索引中的age字段值可能是旧值或新值，但最终返回的age是根据MVCC规则从聚簇索引版本链中找到的可见版本。

5. 为什么不在二级索引中存储版本信息？

原因分析

空间开销
- 每个二级索引都存储DB_TRX_ID（6字节）和DB_ROLL_PTR（7字节）
- 一张表可能有多个二级索引，存储成本高
维护复杂度
- UPDATE操作需要同步更新所有二级索引的版本信息
- 增加写操作的开销
一致性问题
- 多个二级索引的版本信息需要保持一致
- 增加事务管理复杂度
实际收益有限
- 回表操作通过主键定位，效率较高
- 大多数场景下，回表开销可接受

6. 性能影响

索引覆盖查询的性能优势

-- 不覆盖索引（需要回表获取所有列）
SELECT id, name, age, address FROM user WHERE name = 'Tom';

流程：
扫描二级索引 idx_name
获取PK
回表到聚簇索引
读取完整行数据（id, name, age, address）
判断MVCC可见性
返回结果

覆盖索引的优化

-- 覆盖索引（索引包含所有查询列）
SELECT name, age FROM user WHERE name = 'Tom';

流程：
扫描二级索引 idx_name_age
获取PK
回表到聚簇索引（仅读取隐藏字段）
判断MVCC可见性
如果可见，直接返回二级索引中的name, age（无需读取完整行）

优势：

减少了从聚簇索引读取完整行数据的IO
但仍需回表获取版本信息

7. 特殊情况：Change Buffer

Change Buffer优化

-- 更新场景
UPDATE user SET age = 30 WHERE name = 'Tom';

如果二级索引不在内存中，InnoDB可能使用Change Buffer（变更缓冲）：

延迟更新二级索引
先记录到Change Buffer
后续异步合并到二级索引

此时，查询二级索引时：

扫描二级索引
合并Change Buffer中的变更
回表到聚簇索引判断可见性

8. 实际应用建议

优化策略

合理使用覆盖索引

-- 为常用查询列建立联合索引
CREATE INDEX idx_name_age_status ON user(name, age, status);

-- 覆盖查询
SELECT name, age, status FROM user WHERE name = 'Tom';

避免过宽的索引
- 索引列不要过多，平衡空间和性能
索引列顺序
- 将区分度高的列放在前面
- 将查询频繁的列放在索引中

面试要点总结

二级索引不包含MVCC隐藏字段（DB_TRX_ID、DB_ROLL_PTR）
即使索引覆盖查询，也需要回表到聚簇索引获取版本信息判断可见性
回表的目的：
- 获取DB_TRX_ID和DB_ROLL_PTR
- 根据ReadView判断可见性
- 如不可见，沿Undo Log版本链查找
不在二级索引中存储版本信息的原因：空间开销大、维护复杂、实际收益有限
覆盖索引的优势：减少读取完整行数据的IO，但仍需回表判断MVCC
理解这个机制有助于优化索引设计和查询性能