贝利信息

SQL 长事务为何如此危险?

日期:2026-01-24 00:00 / 作者:冷炫風刃
长事务会导致锁阻塞、MVCC清理受阻和主从延迟。它持续持有行/表级锁,阻塞其他操作;阻碍undo log回收,引发磁盘膨胀与性能下降;使binlog大事务串行回放,加剧主从延迟;需通过INFORMATION_SCHEMA.INNODB_TRX主动监控并优先kill空闲长事务。

长事务会持续持有锁,阻塞其他操作

数据库在事务执行期间,会对涉及的行、页甚至表维持锁(如 SELECT ... FOR UPDATE 持有行级写锁,UPDATE 在未提交前不释放锁)。只要事务没 COMMITROLLBACK,这些锁就一直挂着。

常见表现是:其他会话执行相同记录的 UPDATESELECT FOR UPDATE 时卡住,等待超时后报错 Lock wait timeout exceeded;或者 SHOW PROCESSLIST 看到一堆 Locked 状态的线程。

长事务拖慢 MVCC 清理,引发磁盘和内存压力

InnoDB 依赖 undo log 实现多版本并发控制(MVCC)。事务越长,其“快照视图”能看到的旧版本数据就越老,意味着更早的 undo log 记录不能被 purge 线程回收。

后果很直接:undo 表空间持续膨胀(ibdata1 或独立 undo_001 文件变大),INFORMATION_SCHEMA.INNODB_TRX 中的 TRX_UNDO_NOTRX_ROWS_MODIFIED 值偏高,SHOW ENGINE INNODB STATUSHISTORY LIST 长度飙升(常 > 10000 就该警觉)。

主从延迟与 binlog 日志堆积的隐形推手

长事务产生的大量修改,在主库上是一次性提交,但 binlog 是按语句/事务粒度写入的。如果一个事务修改了 50 万行,它对应的 binlog event 就是一个巨型事务日志(可能数 MB),从库 SQL 线程必须串行回放整个事务,无法并行化。

同时,主库的 binlog_cache_sizemax_binlog_cache_size 若设得太小,长事务还可能触发 Multi-statement transaction required more than 'max_binlog_cache_size' bytes 错误,导致事务直接中断。

如何快速定位和干预正在运行的长事务

别等报警才行动。日常应主动监控 INFORMATION_SCHEMA.INNODB_TRX,重点关注

TRX_STARTED 时间戳和 TRX_STATE 状态。

典型命令:

SELECT TRX_ID, TRX_MYSQL_THREAD_ID, TRX_STARTED, 
       TIME_TO_SEC(TIMEDIFF(NOW(), TRX_STARTED)) AS duration_sec,
       TRX_STATE, TRX_QUERY 
FROM INFORMATION_SCHEMA.INNODB_TRX 
WHERE TIME_TO_SEC(TIMEDIFF(NOW(), TRX_STARTED)) > 60;

真正棘手的是那些隐藏在连接池背后、自动重连又不重置事务状态的应用逻辑——它们不会出现在活跃会话里,却持续拖着 undo 和锁资源。这种得靠应用层加 SET autocommit = 1 或显式 START TRANSACTION + COMMIT 控制边界。