记广西移动重大故障过程

当天上午5:00,广西南宁HSS09(华为)扩容割接完成后,经拨测发现部分用户号码无法作主被叫,数据业务无法使用。初步判断为工程割接人为误操作导致用户数据丢失。

该事故共影响钦州、北海、防城港、桂林、梧州、贺州本地网部分用户,初步估计影响用户80万。

据广西移动内部人士透露,华为督导实施人员出现的误操作为:将NNHSS09BE01/NNHSS09BE02互为灾备的各1对DSU单板格式化(该HSS共8对DUS单板),导致HHS中存储用户数据被删除,从而导致钦州、北海、防城港、桂林、贺州、梧州约80万用户2/3/4G所有业务的无法使用。多达100多万用户无信号状态差不多24小时,截至发文前,还有部分用户数据不正常。

故障过程:

5:00 华为NNHSS09BE01/NNHSS09BE02磁阵扩容子工程后探测发现,由于工程实施过程中厂家实施人员出现误操作,将NNHSS09BE01/NNHSS09BE02互为灾备的各1对DSU单板格式化(该HSS共8对DSU单板),导致HSS中存储用户数据被删除,从而导致钦州、北海、防城港、桂林、贺州、梧州约80万用户2/3/4G所有业务的无法使用。

8:15 完成所有SGSN POOL和MSC POOL的鉴权关闭工作。

10:00 已完成约80万假鉴权(非真实数据)用户的鉴权加载及用户业务数据开通,为了加快用户尽快注册上网络,已通过修改位置更新周期为6分钟,强制用户6分钟后向网络发起注册。故2G业务从10:00开始陆续恢复。

11:40 2/3G业务基本恢复正常

11:40 从BOSS拿到真实的鉴权数据

11:40-13:40 分三批次完成所有真实鉴权数据和用户数据的恢复

截至13:30,故障全部恢复

用人话再讲一遍。。。

上面的这些故障过程信息,相信很多同学没有看明白,公众号“鲜枣课堂”做了一下科普:

9月7日晚,后半夜,厂家人员进行扩容割接(就是增加系统的容量,属于经常会有的工作,行内俗称“有操作”)。割接的时候,工程师不小心把HSS设备里面的用户数据给格式化删除了。

凌晨5:00,也就是早上快天亮的时候,广西移动的人发现不对劲,这才知道数据被删了。估计那一刻在场所有人内心是崩溃的。

用户数据没了,就说明你这个用户在系统里面就不存在了。当然,你就打不了电话了,所以很多用户反馈“打电话时说是空号”。

移动赶紧做了两件事: 第一件事,是临时给这80万用户创建用户数据(相当于紧急开个户),同时,因为鉴权数据是不能造假的,所以瞎编了一个鉴权数据,然后把整个系统的鉴权功能给关闭了。

什么是鉴权数据?我们简单点说,就是你手机里面有个密码,移动那边系统里也有个密码,两边密码对得上,你才是真身。 现在移动把密码弄丢了,它没办法鉴别你是不是真的,没办法,它干脆就临时关掉了鉴权功能。实际上,这个时候,如果你是假用户,你也能接入移动的系统,打电话和上网。这个风险是很大的,但移动这时候已经管不了那么多了,总不能不让真用户打电话吧?万一误了事,责任更大。

第二件事,因为当时80万用户都变成了“孤魂野鬼”(因为系统里面他们都是不存在的,所以接不进网络),所以移动完成临时开户之后,需要发起一下强制注册(相当于移动大吼一声——“6分钟后,快来找我”),所有用户的手机赶紧就去找它(注册到网络里)了。

为什么是6分钟,不是6秒钟? 因为这个是强制注册周期时间,6分钟为一个周期,每6分钟就要找一次网络。如果6秒钟的话,全省1000万用户手机,6秒钟找一次爹,这个爹也要累死(负荷太大,系统会崩溃)。

这两件事是为了临时恢复业务。(紧急故障处理的第一原则:先恢复业务)

除了这两件事之外,移动赶紧去BOSS那边拿真正的用户数据去了。

注意哈,这个BOSS,不是老板的意思,是业务运营支撑系统(BOSS,Business & Operation Support System)。通常分为四个部分:计费及结算系统、营业与账务系统、客户服务系统和决策支持系统。说白了,移动电信营业厅,接入的都是BOSS系统,你所有的号码信息,余额信息,开了哪些业务,都在BOSS里面。

11:40的时候,业务临时性恢复了,真正的用户数据也拿到了。

移动拿到真正的用户数据,赶紧写到系统里。等写完之后,数据就算是真正恢复了。这个时候,移动又重新开启了鉴权功能。 一切就都彻底恢复了原样。。

镜像链接:谷歌镜像 | 亚马逊镜像

分类: 科技 标签:
  1. 匿名
    2017年9月12日00:02 | #1

    华为很会搞爱国营销,上次的一款手机大肆宣传在欧洲比国内贵多少

  2. 匿名
    2017年9月12日09:08 | #2

    8月份用华为P9手机下载了google地图,准备在卡尔加里自驾游班夫。谁知拿车出了机场,导航几乎没反应,在车上人一下几乎崩溃了!结果开到风景还不错的田野间兜了大圈。

    • 匿名
      2017年9月12日10:42 | #3

      用了华为处处有惊喜

  3. 匿名
    2017年9月12日13:40 | #4

    匿名 :
    8月份用华为P9手机下载了google地图,准备在卡尔加里自驾游班夫。谁知拿车出了机场,导航几乎没反应,在车上人一下几乎崩溃了!结果开到风景还不错的田野间兜了大圈。

    还好没有输“中南海”,不然能直接给你导到派出所去~~

  4. 匿名
    2017年9月12日14:04 | #5

    为了黑而黑,真没意思。

    重大事故的黑历史,华为算少的。

    华为也是倒霉,现在大家几乎手机不离手,一旦核心网故障,极其容易被大众感知,影响会迅速扩散,不管是不是IT圈子里的人,都在议论。想当年IBM在工总行宕机,估计也就圈子里的人知道。

  5. Mobile Guest
    2017年9月14日22:34 | #6

    不懂出国数据漫游回国内的喷子表演太假了,黑也要高级一点

  1. 本文目前尚无任何 trackbacks 和 pingbacks.