大数据SQL数据倾斜与数据膨胀的优化与经验总结

来源：互联网 2023-06-14 10:12:26

阿里妹导读

(相关资料图)

本文主要基于团队实际开发经验与积累，并结合了业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。

背景

目前市面上大数据查询分析引擎层出不穷，如Spark，Hive，Presto等，因其友好的SQL语法，被广泛应用于各领域分析，公司内部也有优秀的ODPS SQL供用户使用。

笔者所在团队的项目也借用ODPS SQL去检测业务中潜在的安全风险。在给业务方使用与答疑过程中，我们发现大多含有性能瓶颈的SQL，主要集中在数据倾斜与数据膨胀问题中。因此，本文主要基于团队实际开发经验与积累，并结合业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。

本文主要涉及业务SQL执行层面的优化，暂不涉及参数优化。若设置参数，首先确定执行层面哪个阶段（Map/Reduce/Join）任务执行时间较长，从而设置对应参数。

本文主要分为以下三个部分：第一部分，会引入数据倾斜与数据膨胀问题。第二部分，介绍当数据倾斜与数据膨胀发生时，如何排查与定位。第三部分，会从系统层面给出常见优化思路。

问题篇

数据倾斜

数据倾斜是指在分布式计算时，大量相同的key被分发到同一个reduce节点中。针对某个key值的数据量比较多，会导致该节点的任务数据量远大于其他节点的平均数据量，运行时间远高于其他节点的平均运行时间，拖累了整体SQL执行时间。

其主要原因是key值分布不均导致的Reduce处理数据不均匀。本文将从Map端优化，Reduce端优化和Join端优化三方面给出相应解决方案。

数据膨胀

数据膨胀是指任务的输出条数/数据量级比输入条数/数据量级大很多，如100M的数据作为任务输入，最后输出1T的数据。这种情况不仅运行效率会降低，部分任务节点在运行key值量级过大时，有可能发生资源不足或失败情况。

排查定位篇

本节主要关注于业务SQL本身引起的长时间运行或者失败，对于集群资源情况，平台故障本身暂不考虑在内。

1.首先检查输入数据量级。与其他天相比有无明显量级变化，是否因为数据量级的问题天然引起任务运行时间过长，如双11，双十二等大促节点。

2.观察执行任务拆分后各个阶段运行时间。与其他天相比有无明显量级变化；在整个执行任务中时间耗时占比情况。

3.最耗时阶段中，观察各个Task的运行情况。Task列表中，观察是否存在某几个Task实例耗时明显比平均耗时更长，是否存在某几个Task实例处理输入/输出数据量级比平均数据量级消费产出更多。

4.根据步骤3中定位代码行数，定位问题业务处理逻辑。

优化篇

数据倾斜

1. Map端优化

1.1 读取数据合并

在数据源读取查询时，动态分区数过多可能造成小文件数过多，每个小文件至少都会作为一个块启动一个Map任务来完成。对于文件数量而言，等于 map数量 * 分区数。对于一个Map任务而言，其初始化的时间可能远远大于逻辑处理时间，因此通过调整Map参数把小文件合并成大文件进行处理，避免造成很大的资源浪费。

1.2 列裁剪

减少使用select * from table语句，过多选择无用列会增加数据在集群上传输的IO开销；

对于数据选择，需要加上分区过滤条件进行筛选数据。

1.3 谓词下推

在不影响结果的情况下，尽可能将过滤条件表达式靠近数据源位置，使之提前执行。通过在map端过滤减少数据输出，降低集群IO传输，从而提升任务的性能。

1.4 数据重分布

在Map阶段做聚合时，使用随机分布函数distribute by rand()，控制Map端输出结果的分发，即map端如何拆分数据给reduce端（默认hash算法），打乱数据分布，至少不会在Map端发生数据倾斜。

2. Reduce端优化

2.1 关联key空值检验

部分实例发生长尾效应，很大程度上由于null值，空值导致，使得Reduce时含有脏值的数据被分发到同一台机器中。

针对这种问题SQL，首先确认包含无效值的数据源表是否可以在Map阶段直接过滤掉这些异常数据；如果后续SQL逻辑仍然需要这些数据，可以通过将空值转变成随机值，既不影响关联也可以避免聚集。

SELECT ta.idFROM taLEFT JOIN tbON coalesce(ta.id , rand()) = tb.id;

2.2 排序优化

Order by为全局排序，当表数据量过大时，性能可能会出现瓶颈；Sort by为局部排序，确保Reduce任务内结果有序，全局排序不保证；Distribute by按照指定字段进行Hash分片，把数据划分到不同的Reducer中；CLUSTER BY：根据指定的字段进行分桶，并在桶内进行排序，可以认为cluster by是distribute by+sort by。

对于排序而言，尝试用distribute by+sort by确保reduce中结果有序，最后在全局有序。

-- 原始脚本select *from user_pay_tablewhere dt = "20221015"order by amtlimit 500;-- 改进脚本SELECT *FROM user_pay_tableWHERE dt = "20221015"DISTRIBUTE BY ( CASE WHEN amt < 100 THEN 0 WHEN amt >= 100 AND age <= 2000 THEN 1 ELSE 2 END ) SORT BY amtLIMIT 500;

3. Join端优化

3.1 大表join小表

通过将需要join的小表分发至map端内存中，将Join操作提前至map端执行，避免因分发key值不均匀引发的长尾效应，复杂度从（M*N）降至（M+N），从而提高执行效率。ODPS SQL与Hive SQL使用mapjoin，SPARK使用broadcast。

3.2 大表join大表

长尾效应由热点数据导致，可以将热点数据加入白名单中，通过对白名单数据和非白名单数据分别处理，再合并数据。

具体表现为打散倾斜key，进行两端聚合(针对聚合)或者拆分倾斜key进行打散然后再合并数据。

数据膨胀

1. 避免笛卡尔积

Join关联条件有误，表Join进行笛卡尔积，造成数据量爆炸。

2. 关联key区分度校验

关注JoinKey区分度，key值区分度越低（distinct数量少），越有可能造成数据爆炸情况。如用户下的性别列，交易下的省市列等。

3. 聚合操作误用

部分聚合操作需要将中间结果记录下来，最后再生成最终结果，这使得在select操作时，按照不同维度去重Distinct、不同维度开窗计算over Partition By可能会导致数据膨胀。针对这种业务逻辑，可以将一个SQL拆分成多个SQL分别进行处理操作。

总结

大数据SQL优化是一项涉及知识面较广的工作，除了分析现有执行计划之外，还需要学习相应查询分析引擎设计原理。针对我们日常遇到的问题现总结分享给大家，供大家查阅。

参考资料：

ODPS SELECT语法：https://help.aliyun.com/document_detail/73777.html?utm_content=g_1000230851&spm=5176.20966629.toubu.3.f2991ddcpxxvD1#section-ag9-2c4-t0e

Presto Query Lifecycle：https://varada.io/blog/presto/accelerate-presto-trino-queries-data-lake/

A Definitive Guide To Hive Performance Tuning- 10 Excellent Tips：https://www.hdfstutorial.com/blog/hive-performance-tuning/

Presto Performance: Speed, Optimization & Tuning：https://ahana.io/learn/presto-performance/

Hive Optimizing Joins：https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.0.0.2/ds_Hive/optimize-joins.html‍

阿里云开发者社区，千万开发者的选择

阿里云开发者社区，百万精品技术内容、千节免费系统课程、丰富的体验场景、活跃的社群活动、行业专家分享交流，欢迎点击【阅读原文】加入我们。

上一篇:全球今亮点！为困境未成年人提供家庭教育指导下一篇:最后一页

精彩推送

大数据SQL数据倾斜与数据膨胀的优化与经验总结

1. Map端优化

1.1 读取数据合并

1.2 列裁剪

1.3 谓词下推

1.4 数据重分布

2. Reduce端优化

2.1 关联key空值检验

2.2 排序优化

3. Join端优化

3.1 大表join小表

3.2 大表join大表

1. 避免笛卡尔积

2. 关联key区分度校验

3. 聚合操作误用

参考资料：

大数据SQL数据倾斜与数据膨胀的优化与经验总结

全球今亮点！为困境未成年人提供家庭教育指导

如何解决食品价格通胀？哥斯达黎加专家：加强本土季节性食品消费_今日热议

全球快报:长三角五市一区3C认证可免办互认

网传“男子街边遗弃女儿”不实：并非遗弃，女童已被接回

笔记本电池损耗检测软件_笔记本电池损耗

95号汽油今日凌晨进入“7元时代”

全球热消息：有“警”无险！东港民警及时救助一轻生男子

土豪炸翻天下载 土豪炸翻天-实时焦点

全球新动态：qq空间导航是什么_qq空间导航名字

月朔_对于月朔简单介绍

存折磁条坏了怎样取钱_存折磁条失效怎么补磁

九界独尊全文阅读（关于九界独尊全文阅读的基本详情介绍）|环球热讯

世界快消息！美国5月CPI意外降温 美联储6月暂停加息有底气

海关总署推出优化营商环境16条：帮助企业减负增效 提升监管效能畅通物流|今日热搜

农行信用卡逾期协商流程是什么？逾期后果有哪些？

环球看点！讲述·交警故事：寅夜追踪6小时，抓获酒驾肇事逃逸犯

天天最资讯丨电脑修改qq密码怎么修改密码 电脑怎么修改qq密码

我国首台！迈入新阶段

网传“央企发布理财产品App”？都是假的！

不领北控的情？周琦飞赴纽约，若追梦NBA失败他还得面临抉择 速看

环球热点评！胎儿是如何发育的？孕10月胎儿详细发育过程

天天快看：郑州惠济区英才美寓附近有商场吗？买东西方便吗？

北京修订电动自行车用锂电池团体标准

房子施工知识：干铺OR湿铺，你家适合哪一种？-当前热点

天天热点评！个人劳动纠纷处理流程

世界短讯！网贷逾期3年信用还能恢复吗？网贷会影响征信吗

中外合办硕士要参加论文答辩吗？_当前快看

月心塔铭(对于月心塔铭简单介绍)

开化县天地小学：山海共研新课堂 教育共富新天地

天天观热点：淘气天尊：市场底部夯实以后，创业板有望3连阳！

天天实时：一批最新绿色低碳前沿技术产品亮相首届碳博会 赋能绿色转型

《高达 水星的魔女》美术师公开多张插画 新机体场景

信息：《双向奔赴》——关爱新就业形态劳动者①：追光

甘肃公务员论坛 兰州公务员论坛 要闻速递

全球观速讯丨台媒:解放军围台出现新战术 频繁大批次出现在台岛周边

每日消息!乌兰巴托到曹妃甸港区的煤炭实现“直通车”

资鲸PLUS | 11家股份制银行下调存款利率；凯路威科技完成C轮融资；中国光伏企业高管在慕尼黑被带走？

世界消息！申花队长女排国手助阵 徐汇区体育消费嘉年华再掀热潮

世界热推荐：翻新的欧蓝德插电式混合电动车将在法兰克福首次亮相

世界时讯：中金：维持供应短缺溢价可能在下半年推升油价中枢的判断

百事通！终身禁入！“中国股票博物馆”馆长任良成被罚近3亿

今日看点：林锦屏_关于林锦屏概略

焦点速讯：财税[2009]128号 财税2009128号

不肿不疼了，类风湿关节炎也别随意停药

七步洗手法简单记为（七步洗手法简记为）

国家电网：做好新能源并网消纳 推进充电桩建设和配套电网改造

火上热搜！邓超穿“老头背心”走红毯，狠狠给内娱男明星上了一课

阳新一自然湾40年间走出59名大学生

康华生物: 关于首次公开发行前已发行股份上市流通提示性公告|消息

小瀑布山狼（关于小瀑布山狼的基本详情介绍） 天天最资讯

天天短讯！驻进群众心田 助力强村富民

全球热门:俄新型利器，将彻底改变战场局势？原来美国也有“境外势力”

「反邪教警示教育进乡村」一分钟带你认清邪教，这些套路要警惕！

2018福特野马GT V8可能会转至7500rpm

初见青春，关爱成长：潜山市彰法山小学开展心理健康教育知识讲座 今日看点

世界今日讯！电脑怎么截图快捷键_截图快捷键3种屏幕截图快捷键截图技巧

肋排空气炸锅_肋排

信用卡逾期一月严不严重呢？信用卡逾期上门催收合法吗？_全球热推荐

新疆机场集团迅速开展航班近机位靠桥率专项整治

环球看点！涨停雷达：汽车零部件个股异动 金钟股份触及涨停

中信保诚远见成长逆市募集超10亿元

漫展00后COS姆Q，比起颜值网友更关注她的腿，拍照角度看不出短腿

中小学智慧教育平台又“扩容”！孩子想学的这里都有

土豪炸翻天下载土豪炸翻天-实时焦点

世界快消息！美国5月CPI意外降温美联储6月暂停加息有底气

海关总署推出优化营商环境16条：帮助企业减负增效提升监管效能畅通物流|今日热搜

天天最资讯丨电脑修改qq密码怎么修改密码电脑怎么修改qq密码

不领北控的情？周琦飞赴纽约，若追梦NBA失败他还得面临抉择速看

开化县天地小学：山海共研新课堂教育共富新天地

天天实时：一批最新绿色低碳前沿技术产品亮相首届碳博会赋能绿色转型

《高达水星的魔女》美术师公开多张插画新机体场景

甘肃公务员论坛兰州公务员论坛要闻速递

全球观速讯丨台媒:解放军围台出现新战术频繁大批次出现在台岛周边

世界消息！申花队长女排国手助阵徐汇区体育消费嘉年华再掀热潮

焦点速讯：财税[2009]128号财税2009128号

国家电网：做好新能源并网消纳推进充电桩建设和配套电网改造

小瀑布山狼（关于小瀑布山狼的基本详情介绍）天天最资讯

天天短讯！驻进群众心田助力强村富民

初见青春，关爱成长：潜山市彰法山小学开展心理健康教育知识讲座今日看点

环球看点！涨停雷达：汽车零部件个股异动金钟股份触及涨停

学制苗族银饰传承非遗之美

腾讯人工在线客服电话腾讯人工客服电话怎么转人工服务

深度解读 Vision Pro：苹果在发布会上没说的 18 个细节环球快播报

旱碱麦成“名片”迎来丰收盐碱地特色农业开出“增收花” 焦点热文

环球关注：【夏收现场】知识落“地”助丰收耕地质量提升示范田小麦增产53.6%

国铁:今起12306试行在线选铺服务想要下铺以后要拼手速啦！

探访安徽巢湖“美容师” 义务守护巢湖水清岸绿环球资讯

今年端午假期或成近五年最火端午资讯推荐

广州交易集团：广聚发展新要素融汇发展新动能-环球信息

诗圣是谁诗仙是谁诗圣是谁诗魔是谁诗鬼是谁（诗仙是谁）看热讯

热文：引导行业健康发展海南省混凝土协会正式成立

梅西抵达中国，将开启个人第七次访华之旅全球简讯

环球聚焦：广西民族师范附属小学广西民族师范学院附属中学官网

为什么电压互感器禁止短路为什么电流互感器不允许开路电压互感器不允许短路_全球速读

充电板块因通用(GM.US)接入特斯拉(TSLA.US)充电网络消息集体下跌分析师：市场或反应过度

经纪人：皇马有意阿方索让我自豪关于续约尚未做出最终决定-天天头条

海康威视跌6.34% 申银万国中国银河在其高点唱多全球播资讯

21汽车视频｜苗圩：预计今年碳酸锂价格将保持在15-20万元每吨当前快播

7月带孩子去哪里旅游比较好_带孩子适合去哪旅游快资讯

环球聚焦：六岁儿童误吞笔帽医护协作安全取出

每日速讯：希荻微今日大宗交易折价成交160.89万股成交额3742.3万元