MySQL深入24-主库出问题，从库这么办

# MySQL深入24-主库出问题，从库这么办

一个基本的一主多从结构：

A 和 A’互为主备，从库 B、C、D 指向的是主库 A。一主多从的设置，一般用于读写分离，主库负责所有的写入和一部分读，其他的读请求则由从库分担。

备库和从库的概念是不同的，虽然二者都是只读的，但是从库对外提供服务，而备库只是为主库提供备份

主库发生故障，主备切换后的结果：

一主多从结构在切换完成后，A’会成为新的主库，从库 B、C、D 也要改接到 A’。正是由于多了从库 B、C、D 重新指向的这个过程，所以主备切换的复杂性也相应增加了。

接下来，我们重点深入一主多从的主备切换过程。

# 基于位点的主备切换

前置知识

当我们把节点B设置成节点A’的从库的时候，需要执行一条 change master 命令

CHANGE MASTER TO 
MASTER_HOST=$host_name 
MASTER_PORT=$port 
MASTER_USER=$user_name 
MASTER_PASSWORD=$password 
MASTER_LOG_FILE=$master_log_name 
MASTER_LOG_POS=$master_log_pos

对应参数详情信息如下：

MASTER_HOST：主库的IP
MASTER_PORT：主库的端口
MASTER_USER：用户名
MASTER_PASSWORD：密码
MASTER_LOG_FILE：日志文件名
MASTER_LOG_POS：日志偏移量

对于最后一个参数，假设节点 B 是 A 的从库，本地记录的也是 A 的位点。但是相同的日志，A 的位点和 A’的位点是不同的。因此，从库 B 要切换的时候，就需要先经过“找同步位点”这个逻辑。

考虑到切换过程中不能丢数据，为了数据的可靠性，我们找位点的时候，总是要找一个“稍微往前”的，然后再通过判断跳过那些再从库B上已经执行过的事务。

一种取同步位点的方法是这样的：

等待新主库A’把中转日志（relay log）全部同步完成；
在 A’上执行 show master status 命令，得到当前 A’上最新的 File 和 Position；
取原主库A故障的时刻T；
用 mysqlbinlog 工具解析 A’的 File，得到 T 时刻的位点。

步骤4所得到的数据也并不精确：

假设在T这个时刻，主库A已经执行完成了一个insert语句插入了一行数据R，并且已经将 binlog 传给了 A’和 B，然后在传完的瞬间主库 A 的主机就掉电了。

这时候系统的状态如下：

在从库 B 上，由于同步了 binlog， R 这一行已经存在；
在新主库 A’上， R 这一行也已经存在，日志是写在 123 这个位置之后的；
我们在从库 B 上执行 change master 命令，指向 A’的 File 文件的 123 位置，就会把插入 R 这一行数据的 binlog 又同步到从库 B 去执行。

由于从库B上已经有了这一条新语句，但是步骤4得到的位点是在插入语句之前，所以就会把插入 R 这一行数据的 binlog 又同步到从库 B 去执行，那么就会出现主键冲突的问题，然后停止同步。

通常情况下，我们在切换任务的时候，要先主动跳过这些错误，有两种常用的方法：

主动跳过一个事务
通过设置slave_skip_errors参数，直接设置跳过指定的错误
- 1062 错误是插入数据时唯一键冲突；
- 1032 错误是删除数据时找不到行。

# 基于GTID的主备切换

上述的跳过一个事务和忽略错误的方法，虽然最终都可以建立从库B和新主库A’的主备关系，但这两种操作都很复杂，而且容易出错。5.6版本引入GTID，彻底解决这个问题。

GTID 的全称是 Global Transaction Identifier，也就是全局事务 ID，是一个事务在提交的时候生成的，是这个事务的唯一标识。它由两部分组成，格式如下：

GTID=server_uuid:gno

server_uuid 是一个实例第一次启动时自动生成的，是一个全局唯一的值；
gno 是一个整数，初始值是 1，每次提交事务的时候分配给这个事务，并加 1。

在MySQL的官方文档里，GTID格式定义如下：

GTID=source_id:transaction_id

source_id：server_uuid

transaction_id：事务提交的时候才会分配的。

在GTID模式下，备库 B 要设置为新主库 A’的从库的语法如下：

CHANGE MASTER TO 
MASTER_HOST=$host_name 
MASTER_PORT=$port 
MASTER_USER=$user_name 
MASTER_PASSWORD=$password 
master_auto_position=1

其中，master_auto_position=1 就表示这个主备关系使用的是 GTID 协议。我们把现在这个时刻，实例 A’的 GTID 集合记为 set_a，实例 B 的 GTID 集合记为 set_b。接下来，我们就看看现在的主备切换逻辑。

实例 B 指定主库 A’，基于主备协议建立连接。
实例 B 把 set_b 发给主库 A’。
实例 A’算出 set_a 与 set_b 的差集，也就是所有存在于 set_a，但是不存在于 set_b 的 GTID 的集合，判断 A’本地是否包含了这个差集需要的所有 binlog 事务。
- 如果不包含，表示 A’已经把实例 B 需要的 binlog 给删掉了，直接返回错误；
- 如果确认全部包含，A’从自己的 binlog 文件里面，找出第一个不在 set_b 的事务，发给 B；
之后就从这个事务开始，往后读文件，按顺序取 binlog 发给 B 去执行。

在基于 GTID 的主备关系里，系统认为只要建立主备关系，就必须保证主库发给备库的日志是完整的。因此，如果实例 B 需要的日志已经不存在，A’就拒绝把日志发给 B。

在引入GTID后，一主多从的切换场景下，由于不需要找位点了，所以从库B、C、D 只需要分别执行 change master 命令指向实例 A’即可。严谨地说，主备切换不是不需要找位点了，而是找位点这个工作，在实例 A’内部就已经自动完成了。

# 参考

MySQL 实战 45 讲-极客时间 (opens new window)

#MySQL

上次更新: 2024/06/29, 15:13:44

← MySQL深入23-备库延迟好几个小时 MySQL深入25-读写分离的过期读问题→