事件背景
当事人所在的公司核心业务是做政府信息化软件的,就是为政府部门开发信息化系统。其中有一款信息化软件是客户每天需要使用的,并且他们面向的客户就是老百姓。
某年某月,某地区信息化系统,周末升级系统以后,后面连续一周,持续出现系统不稳定、宕机、服务假死、数据库锁表等事件。甚至星期五下午,出现三个多小时无法恢复系统,造成恶劣影响。
系统整体运行架构

系统整体架构
相对传统的一个负载均衡运行架构。系统建设时间比较早(2016年),没有分布式框架,就是传统的SpringMVC+Mybatis架构,并且服务器都是基于Windows Server 2008的。
这套架构是出问题之前的架构,存在比较大的问题,在后续负载均衡章节会详细说明。
事件过程
事件持续了一周左右,出现了好几类的严重问题。

事故时间轴
事件造成的影响
公司口碑受到重大影响,此次事件公司常务副总、研发中心经理、主管全部出动,去安抚客户和解决问题(系统所在地区是沿海省会级城市,面向百姓,影响比较大)。
出严重问题当天,刚好有督查组来访问,碰到这个事件,机构年度考核扣了好多分。
后续行机构收到了大量投诉,影响了很多人考评。


