首页 >新闻动态 > 详情页
【华为IT运维之道】第10期直播回顾丨"华为故障注入":打造标准的‘故障演练’流水线!
来源:华为-知识头条 | 作者:food-100 | 发布时间: 599天前 | 380 次浏览 | 分享到:
11月18日16:00,【华为IT运维之道】系列第十期《故障注入》如约而至。本期特邀华为IT故障演练专家陈贤煌老师,分享华为安全可控、可自动执行的数字化演练产品,通过工具、模板、流程等,打造一个标准的‘故障演练’流水线。

1118日16:00,【华为IT运维之道】系列第十期《故障注入》如约而至。本期特邀华为IT故障演练专家陈贤煌老师分享华为安全可控、自动执行的数字化演练产品,通过工具、模板、流程等,打造一个标准的‘故障演练’流水线。(文末回看直播)

直播第八期分享了‘华为故障演练实践’经验,大家对混沌工程、故障编排等依然意犹未尽。直播开场陈老师系统的介绍了混沌工程,与接种疫苗做类比,如同流感病毒不同的人所感染的结果可能是不一样的,主动注入感冒病毒,体内就具备了抗体,身体就具备了抵抗力;混沌工程就是通过主动制造故障,验证系统的恢复能力,提高系统的可靠性那这是不是跟我们常说的“故障注入”有点像呢?没错,“故障注入”是混沌工程最重要的组成部分,混沌工程更像一种实验,并不预设实验结果。

华为基于云原生时代背景下,系统面临应用架构层级多,服务调用复杂的难题,引入混沌工程利用实验提前探知系统风险,通过架构优化和运维模式的改进来解决系统风险,真正实现韧性架构,降低企业损失,提高故障免疫力

插图1.png

同时混沌工程不是一开始就在生产环境中运行要先构建实验的基础能力,形成稳定的演练流程,在灰度环境进行常态化演练,再在生产环境中突袭的演练,保证最小的爆炸半径。以下实施构建的原则描述了混沌工程的理想应用场景对于这些原则的接受和实践应用程度与我们对于系统的信心建立密切相关

  1. 建立关于稳态行为的假说

  2. 多样化地引入现实世界的事件

  3. 在生产环境中进行实验

  4. 持续运行自动化实验

  5. 最小化爆炸半径

插图2.png

介绍混沌工程的概念和实施能力建设的标准后,陈老师开始基于华为内部混沌工程的分享。华为从2019年开始进行混沌工程能力的建设产品架构由演练业务流演练管理演练编排故障场景以及演练防护组成由此实现演练业务的数字化转型。产品的主要功能和IAM、可观测及架构感知服务等做了深度集成,提供丰富的故障场景,授权对不同应用实施故障演练,提升演练的安全性。陈老师总结了以下四点优势:

  1. 安全的演练防护

  2. 灵活的流程编排

  3. 丰富的故障场景

  4. 多样的演练模板

插图3.png

直播中陈老师详细为大家介绍了故障演练流程风险管控能力以及故障画像的应用场景,列举CPU过载故障注入逻辑、容器故障注入场景等实例说明产品真实的应用场景。经过与业界产品对比,华为产品优势在于演练计划、演练报告,演练问题全流程管理尾声阶段,陈老师对于混沌工程产品能力未来的发展方向提出四点展望:故障即服务、恢复即服务、爆炸半径控制演练可观测;未来空间广阔,思想落地需要不断摸索建设路径、通过实践积累经验。

互动交流环节,观众对于故障演练环境以及故障演练的可观测实现方式作出提问陈老师建议故障演练优先在测试环境中进行,能力和流程发展成熟后再在实际的生产环境中进行,能有效降低影响;以及介绍了华为故障演练的可观测性方式主要是通过下故障脚本探针实时获取数据指标来有效避免监控平台时延的影响使用监控系统来验证故障数据的真实性。

通过此次分享,华为首次向业界展示自身产品能力的发展与展望,共同探索混沌工程未来的发展方向,共同努力实现全自动化运维。我们还将定期举办直播,弘扬IT运维之道。直播间每期都将为参与问卷调研的幸运观众发送惊喜大礼,本期获奖观众名单如下:

获奖人

手机号

所在城市

奖品

刘先生

178****1816

重庆市九龙坡区

荣耀运动xSport AM61跑步磁吸防水耳机

先生

189****3519

深圳市福田区

荣耀运动xSport AM61跑步磁吸防水耳机

【华为IT运维之道】直播间已在知识头条开通专栏,预约直播或回顾精彩视频可点击下方链接,如对直播间或本期内容有任何问题或建议可填写问卷链接,有机会赢取精美礼品。