数据库索引原理

为什么需要索引

索引是加速数据检索的数据结构。没有索引时，数据库需要全表扫描（顺序读取所有数据页），时间复杂度 O(n)。有了索引，可以将时间复杂度降低到 O(log n) 甚至 O(1)。

B+ 树是关系型数据库中最常用的索引结构：

             [50, 70]
            /    |    \
      [20, 30]  [50, 60]  [70, 80]
      /    |    /    |    /    |    \
   数据页 数据页 数据页 数据页 数据页 数据页

以查找 id = 55 为例：

B+ 树的叶子节点链表结构使得范围查询非常高效。查询 id BETWEEN 50 AND 60 时，只需找到 50 然后顺序遍历链表。

哈希索引使用哈希函数将键映射到桶（bucket）中：

hash(key) % bucket_count => bucket_number

数据行的物理顺序与索引顺序一致。InnoDB 的主键索引就是聚簇索引：

索引顺序与数据物理顺序不同：

选择性 = 不同值的数量 / 总行数。选择性越接近 1，索引效果越好。

-- 性别列选择性低，不适合单独建索引
-- 邮箱列选择性高，适合建索引
CREATE INDEX idx_email ON users(email);

复合索引 (a, b, c) 可以匹配：

-- idx_a 已覆盖 idx_a_b 的功能
CREATE INDEX idx_a ON t(a);
CREATE INDEX idx_a_b ON t(a, b);  -- 保留这个，删除 idx_a