?當地時間7月2日凌晨1點35分開始,日本運營商KDDI的移動網絡發生大規模通信故障,導致全日本范圍內無法撥打電話、無法收發短信、數據通信變慢。

此次事故影響范圍大,持續時間長,影響用戶數量達3915萬,故障一直持續到7月4日下午才基本完全恢復,給日本全社會造成了極大的不便和損失,也是KDDI有史以來遭遇的最大一次網絡系統故障。


【資料圖】

故障發生后,KDDI高層及時召開新聞發布會,向廣大深受影響的個人和企業用戶鞠躬致歉,并表示考慮賠償損失。

那究竟是什么原因造成了此次大規模通信故障?看完KDDI的報告后,發人深省。

故障原因一:核心路由器割接失敗

7月2日凌晨,KDDI組織工程師對連接全國移動核心網和中繼網絡的一個核心路由器進行割接,將老舊的核心路由器更換為新產品。

不幸的是,通信人最擔心的噩夢發生了——割接失敗了。在更換核心路由器的過程中,新的核心路由器出現了不明原因的故障。

搞通信的伙伴們都知道,核心路由器位于網絡核心位置,是整個網絡的“交通樞紐”,不僅性能強悍、價格昂貴,且需時時刻刻保持穩定運行,否則,一旦出現問題,動輒可能影響全網數百萬甚至數千萬用戶。

正因如此,核心路由器割接好比為活人換“心臟”,是一項極具挑戰的工作,也對要更換的新產品的成熟性、穩定性、互聯互通性等能力要求極高。

但KDDI偏偏在這項要求極其謹慎的工作上掉了鏈子,接下來的后果當然就相當嚴重了——

由于新核心路由器無法將語音流量正確路由到VoLTE交換節點,直接導致部分VoLTE語音業務中斷15分鐘。

故障原因二:信令風暴擊潰VoLTE網絡

核心路由器割接失敗,這場景簡直不敢想象,隔著屏幕都能嚇出冷汗!

怎么辦?趕緊回退唄。KDDI的工程師們快速啟動了回退操作,于7月2日凌晨1點50分將連接重新切換回舊的核心路由器。

但更大的問題發生了。

回退后,“由于VoLTE終端每50分鐘進行一次位置注冊”,大量終端向VoLTE交換節點發起位置注冊信令,以重新連接至網絡。海量信令集中突發,很快引發VoLTE交換節點擁塞,致使大量用戶無法進行VoLTE通信。

同時,移動網絡中有一個“用戶數據庫”,負責存儲用戶的簽約數據和位置信息,由于VoLTE交換節點擁塞,“注冊在用戶數據庫的位置信息無法反映在VoLTE交換機上”,出現數據不匹配問題,也導致很多用戶無法通信和撥打電話。

針對此情況,KDDI于7月2日凌晨3:00后開始從無線側、VoLTE核心網側同時實施流量控制策略,以及通過斷開PGW的方式減輕用戶數據庫負荷,以緩解網絡擁塞,并在PGW采用“會話重置”措施解決用戶數據庫中的數據不一致問題。

因為實施流量控制,接下來導致了全國范圍內的數據通信和語音通話難以連接。

接下來,KDDI開始緊張的網絡恢復工作。7月3日上午11點,KDDI宣布日本西部基本完成網絡修復工作。下午5點30分,日本東部基本完成。但仍然有一些用戶難以進行數據通信和語音通話。

直到7月4日下午4點,距離故障發生62個小時后,KDDI表示已在全國范圍內基本恢復。

發人深省

類似的重大網絡故障在日本并不是頭一次。

2021年10月14日,日本另一家運營商NTT DoCoMo的移動網絡也發生過全國性的重大通信事故,導致大量手機用戶無法進行通話和數據通信。

此次事故同樣因為割接失敗后回退操作,引發信令流量大爆發,導致網絡大擁塞。

具體情況是,NTT DoCoMo在替換用于存儲物聯網終端設備的用戶和位置信息的網絡設備時出現了問題,然后立即啟動回退操作,重新倒回到舊設備。

但這一回退操作,引發了大量物聯網終端向舊設備重新發起位置注冊信息,洶涌而來的“信令風暴”快速引發了網絡擁塞,并波及3G/4G/5G網絡的語音和數據分組核心設備,導致大量用戶無法通話和數據通信。

與NTT DoCoMo不同的是,KDDI此次是因為核心路由器割接失敗引起,而且故障持續時間要長很多。

但值得一提的是,KDDI似乎并非沒有吸取DoCoMo的教訓。

KDDI在全日本范圍內擁有6個交換中心,共18個VoLTE交換節點,且交換中心內的VoLTE交換節點是相互冗余備份的。而本次因核心路由器割接導致VoLTE業務中斷的只是其中一個交換中心的VoLTE交換節點。

“我們做過壓力測試,因為有冗余備份,即使一個交換中心范圍內的所有終端同時發起重新連接請求,也不會發生擁塞?!?/p>

KDDI表示,“但不知道什么原因,結果還是發生了擁塞,我們還沒有完全搞清楚到底是哪里出了問題?!?/p>

但愿KDDI最終能徹底找出此次事故的所有原因。也希望通信業再也不要重蹈覆轍。因為,重大網絡故障,這六個大字,對于通信業而言,實在太可怕了。?

標簽: