[雑記] GMOの大規模障害に思う事

GMOグループのセンター内で電源障害が発生したようで、2016/1/16 14:15から半日以上障害が継続する事故が発生しました。
GMO系サービスの利用者ではあるものの、特に影響は受けませんでした。
とはいえ、この障害対応を見ながら、気になるところをメモとして残します。

[障害の影響]
今回の障害の特徴は次の通りでした。
■電源障害によりサービスサイトが停止した
■一部の利用者のサイトにも影響があったようだ(Twitterなどによると)

[電源障害の頻度]
データセンター(や通信局舎)での電源障害は国内では発生しないとだろうと思いがちですが、まれにですが発生しています。
■NTTコミュニケーションズ 大手町ビル(2004年)
お詫び | NTT Com 企業情報
■さくらインターネット 西新宿データセンタ(2008年)
「西新宿データセンター」における電源障害に関する質問および回答 | さくらインターネット
■富士通 館林システムセンタ(2012年)
富士通の旗艦、館林データセンターが電源障害でダウンし、金融機関やニフティクラウドに影響。日経コンピュータ誌 - Publickey
それほど頻繁ではないのですが、一度発生すると長時間継続する特徴があります。

[対応]
では今回のGMOグループの対応はどうだったでしょうか?
14:15に障害発生しましたが、多くのサービスサイトが同時に停止しその結果障害発生の告知も出せない状態になりました。
GMOグループの各社は公式Twitterアカウントがありますが、告知されたのは障害が発生してからかなり時間がたってからのことでした。

GMOアプリクラウド (16:44)

GMOグループ公式 (17:53)

お名前.com (18:13)

我らが(?)Conohaたんはアナウンスすらありませんでした…(T_T)
https://twitter.com/ConoHaPR

代表のTwitterは言わずもがなです。
https://twitter.com/m_kumagai

[今後どうすべきか]
今回の件は、サービス提供者にとって以下を検討するキッカケになるのではないでしょうか。

土曜日とはいえ数時間経過してようやくTwitterでアナウンスとは迅速とは言えません。データセンターが停止するような大規模障害を想定して、Twitterなど外部サービスでの迅速な告知をどう行うか?という手順が求められます。
サービス系のサイトは様々なシステムと連動しているため冗長化は難しいでしょうが、サービス系と障害通知系は分離し、障害通知系のみは冗長化という方法も取れそうです。

一番の驚きはBEKKOAMEや3WEBはGMOの傘下だったのか!ということでした。