1 简介
选取;MapD、PG-Strom、Vertica进行对比测试。其中MapD为列式GPU数据库;PG-Strom是在PostgreSQL(行式)上增加了GPU插件,使用GPU运算;Vertica为一般列式数据库,作为对比。
另外还有Kinetica、Brytlyt、BlazingDB等均为商用GPU数据库,流行度、文档、官方支持都弱于MapD,且无开源版本,未纳入本次测试。
2 系统配置
CPU | Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz*4 |
内存 | 8G |
磁盘 | 260G ssd |
GPU | NVIDIA Tesla P40(24G显存)*1 |
3 性能测试
原始数据:美国2008年飞行数据(MapD官方提供)行长约400B,共2.1亿行,84G
3.1 入库性能
数据库 | 导入性能 | 表大小 | 数据压缩比 |
mapd | 27.5w/s | 37G | 2.27 |
mapd 边查边入 | 21.7w/s | 37G | 2.27 |
vertica | 14.2w/s | 6.4G | 13.12 |
pg-strom | 9.3w/s | 66G | 1.27 |
pg-strom多进程导入 | 23.9w/s | 66G | 1.27 |
MapD与vertica导入时CPU使用率接近100%,均为瓶颈。边查边入的性能降低也是由于查询占用了部分CPU。PG-Strom一个导入进程只能用满1核,故需要多进程导入才能达到性能上限。
3.2 查询性能
测试语句:
Sql1: select count(*) from flights; |
Sql2: select count(*) from flights where origin_country=’USA’; |
Sql3: select count(*) as cnt,avg(distance) as dis from flights where flight_month=10; |
Sql4: select origin_city,dest_city,count(*) as cnt,avg(airtime) as atime from flights group by origin_city,dest_city order by cnt desc,atime; |
Sql5: select origin_state,dest_state,count(*) as cnt,avg(airtime) as atime from flights where distance<175 group by origin_state,dest_state ; |
性能对比:
无缓存:
Sql 查询耗时(ms) | mapd gpu+cpu | mapd cpu only | vertica | pg with pg-strom | pg |
sql1 | 3641 | 3095 | 154 | 86196 | 70833 |
sql2 | 4571 | 4319 | 5838 | 90782 | 143490 |
sql3 | 4428 | 3942 | 511 | 88699 | 75490 |
sql4 | 5914 | 5699 | 8698 | 94219 | 1286666 |
sql5 | 6666 | 5903 | 3289 | 91956 | 212259 |
有缓存:
Sql 查询耗时(ms) | mapd gpu+cpu | mapd cpu only | vertica | pg with pg-strom | pg |
sql1 | 52 | 72 | 169 | 86946 | 71456 |
sql2 | 58 | 106 | 5787 | 91004 | 142894 |
sql3 | 57 | 149 | 153 | 88874 | 74287 |
sql4 | 252 | 496 | 8567 | 92768 | 1270628 |
sql5 | 162 | 212 | 2637 | 88107 | 211838 |
3.3 并发测试
使用3.2中SQL5进行并发测试,其中distance随机生成:
SQL5:
并发 | QPS | 显存 | GPU |
1 | 7.9 | 4.8G | 90% |
10 | 8.5 | 4.8G | 90% |
20 | 8.5 | 4.8G | 90% |
50 | 8.4 | 4.8G | 90% |
MapD引擎内部并无并发处理机制,实际多个会话执行的查询都是串行执行,系统资源也并未随并发数升高而增加。
4 测试结论
- 性能对比:
- 入库性能:MapD与PG-Strom由于压缩比较低所以入库性能均高于Vertica。
- 无论有无缓存,PG以及PG-Strom性能均远远低于MapD与Vertica。数据有缓存场景下,MapD的大部分统计查询得益于GPU的高吞吐量性能远高于vertica,同样PG-Strom也高于原生PG。
- MapD引擎内部并无并发处理机制,所有查询都是串行执行。已向官方证实。
- MapD在SQL方面只支持INSERT、SELECT,不支持UPDATE、DELETE、事务、索引等。PG-Strom由于是插件形式,所以SQL支持度是与PG相同,兼容性非常高。
- 本轮测试过程中MapD服务端同样发生过崩溃。
5 后续测试规划
基于公司的某一业务场景,和vertica、ydb进行对比测试。