[MySQL FAQ]系列 -- 新年新思想:MySQL也能并发导入数据

对MySQL的用户而言,备受诟病的一个问题就是导入SQL备份文件时不能并发,使得导入的效率很低。
今天,我们就来改变下思路,尝试一下并发导入的方法,供大家参考。
1、问题分析
想要实现并发导入,其实没那么难,最简单的思路就是:将完整的文件切分成多份,然后并发导入即可。
在这里,我自己的做法是这样的:

1) 首先,假设只有一个库;多个库的情况也是类似,无非就是循环
2) 计算SQL文件总行数
3) 计算SQL文件总大小
4) 设定每个切分文件最大尺寸
5) 初始化表结构
6) 循环处理SQL,按照切分文件最大尺寸切分成多个小文件
7) 并发导入多个小文件

上述方法中,如果数据表是 MyISAM 表,则并发导入没有问题,但如果是 InnoDB 表,则会有表级锁 AUOT-INC 导致并发效率不高的麻烦,尽管如此,那也比单个文件串行导入来的快一些。想要避免这个麻烦,就得采用 MySQL 5.1 版本了,因为在 5.1 中,改进了 AUTO-INC 的处理方式,规避了表级锁,很大程度提高了并发效率。
2、实际测试
事先设定:最大并大导入线程是16个。
2.1 MySQL 5.0.67 版本

innodb_flush_log_at_trx_commit = 1
串行导入:01:51:34
并行导入:01:25:05
innodb_flush_log_at_trx_commit = 0
串行导入:01:49:36
并行导入:01:11:29

2.2 MySQL 5.1版本

innodb_flush_log_at_trx_commit = 1, innodb_autoinc_lock_mode = 0
串行导入:01:52:28
并行导入:01:38:13
innodb_flush_log_at_trx_commit = 1, innodb_autoinc_lock_mode = 1
串行导入:01:54:55
并行导入:01:26:24
innodb_autoinc_lock_mode = 0
并行导入:01:38:13
innodb_autoinc_lock_mode = 1
并行导入:01:05:51

更加详细的测试就不再做了。
3、小结
从上面的测试结果可以看到,MySQL 5.1在AUTO-INC锁方面的改进还是非常大的,对于想要提升并发性能,同时应用相对不是太复杂,并且不担心会碰到bug的童鞋可以多多尝试下。
由于众所周知的缘故,相关的脚本就不发布了,有需要的童鞋请加入MSN群讨论。

技术相关:

评论

这个我也想了解一下

如果导入的sql中有上下文关系, 是否会出问题?

举个例子?如果是外键约束,导入前禁用就行了,其他的还没想到。

没有考虑到是备份出来的sql这个前提,我想差了

我曾经写了"半个"多线程把dump出来的sql灌入库的程序,在未执行任何my.cnf 和关闭约束等条件下,是默认导入方法的2.94倍,不过对c语言实在不熟悉,其他语言也不行,结果就放那没做完.不过得到测试结果感觉不错.

这个可以参考Maatkit: mk-parallel-dump