时间:2024-09-21 23:30:23
导读:数据倾斜处理 很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的 数据预处理 , 异常值的过滤 等。因此,解决数据倾斜的重点在于对 数据设计 和 业......
数据倾斜处理
很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的 数据预处理 , 异常值的过滤 等。因此,解决数据倾斜的重点在于对 数据设计 和 业务 的理解,这两个搞清楚了,数据倾斜就解决了大部分了。
1.业务逻辑。从业务逻辑的层面上来优化数据倾斜:单独对Key进行处理(二次聚合) + 整合
2.程序层面。比如说在Hive中,经常遇到count(distinct)操作,这样会导致最终只有一个Reduce任务。
3.调参方面。Hadoop和Flink都自带了很多的参数和机制来调节数据倾斜,合理利用它们就能解决大部分问题。
新视点数码百科版权所有,广州云媒派信息技术有限公司 版权所有 粤ICP备2021127029号