[智能云建设推进系统]蚂蚁云Elasticsearch智能运输系统的最佳实践

作者:易秋      发布时间:2021-04-24      浏览量:0
摘要:随着业务的增加和发展,不同的Ela

摘要:

随着业务的增加和发展,不同的Elasticsearch集团承担着多种功能需求。特别是集团规模增加,业务庞大的情况下,需要大量的劳力来运输集团。蚂蚁云Elasticsearch开发了智能运输系统,通过多个专家的经验和数据驱动,可以帮助用户运输集群,提高业务稳定性。本文结合运输维护的常见问题,介绍蚂蚁云Elasticsearch智能运输系统的最佳实践。

一、诊断群异常

最坏的情况下,Elasticsearch群(后简称ES群)崩溃,无法正常承担各项业务。ES集团崩溃的原因大多是master节点、数据节点的停机,这些情况决不是空洞来风,智能运输系统帮助用户的是有迹可寻,有迹可寻。

Case1:节点负荷过高,节点失去联系

以ES集群的数据节点和master节点为例,任何节点负荷过高,单个节点都有可能停止,挑战集群的可用性。通过系统自动与用户手动触发的方式,智能运输系统可以帮助用户监视过去一段时间内的节点负荷状况,如果有危险,提出用户的原因和解决方案,帮助用户事先知道并拯救集团在崩溃的边缘。

Case?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????当存储空间被占用时,索引副本丢失的可能性很高。检查副本的存在状态可以帮助用户提高数据的可靠性。集团重新开始的过程中,只有复印数时才能保证服务的持续进行。

Case3:数据输入失败,集体压力过大

输入操作过程中,集体压力可能会堆积过多的读写任务,用户可能会产生输入的误解。在这种情况下继续增加写作可能会导致集体崩溃。通过推荐用户调用线程池查看实际成功、失败的任务状况,通过批量写作解决写作堆积困境,减压集团。

二、提高集团性能

如何在固定配置中更大限度地发挥集团的可用性能,是用户最关心的问题。从Elasticsearch的内部逻辑和结构来看,数据节点是任务载体和执行的依赖,shard是索引和检索的主要负责人,复印件是提高性能的重要抓手,分批写作和防止稀疏是必要的方法。如何提高集团性能,智能运输系统从数据节点负荷、shard合理性和用户操作规范三个方面入手,帮助用户挖掘集团能力。

Case1:数据节点偏离,防止单节点瓶颈

在各数据节点负荷均衡的条件下,性能倾向于最佳实践。单节点负荷过高,与其他节点大不相同,高负荷节点可能成为拖油瓶,降低整体集群数据节点任务的执行,脱离集群的风险。通过检测数据节点之间的负荷偏离,可以引导用户平衡负荷,在提高性能的同时保障稳定性。

Case2:shard、segment的合理性评价、性能调整负荷。

不同场景对性能有不同的需求。索引的载体是shard,检索结果的返回也是多个shard的共同返回结果。Shard数与节点之间的负荷平衡、查询性能和存储空间利用有着非常重要的关系。智能运输可以读取用户索引shard、节点shard,检查索引segment过多是否碎片化,引起离线数据的写入过慢,提示用户在适当的时间实施段落合并操作,提高离线数据的写入速度。推荐用户最佳的shard指定情况,在适当的时机合并执行段,平衡负荷,提高性能,节约空间。

Case3:规范操作方式,保证状态合理

在保证index:type=1:1的状态下,可以有效防止稀疏数据的发生,从type个数诊断科可以帮助用户合理设置,禁止dynamic映射自定义映射类型、别名日常使用和分批(bulk)合理操作的基本方式

总结:

综上所述,是智能运输系统诊断群异常,提高群性能的检测、分析因素、建议的主要实践。辅以集群状态趋势的监测图,从各状态诊断项目的数量变化,向用户展示最近时间段集群的整体情况,全面观察,加强知识提取、常见问题总结的统计。

不同的ES集团在使用智能运输系统时有不同的诊断结果,在ES集团变更过程中,智能运输系统可以继续跟进,提供用户ES集团各状态的异常检测、风险回避和优化推荐,帮助用户合理化、科学化、便利化运输集团。