fumi’s blog

プログラミングやITなどの雑記

みずほ証券のシステム障害から学ぶ設定ミスの恐ろしさ

6月22日から、みずほ証券にてシステム障害が発生した。

www.nikkei.com

www.itmedia.co.jp

詳しい原因は公表されていないが、人為的ミスによりネットワーク障害が発生。約1万件の売買注文が適切に処理されなかったと公表されている。

規模は全然違うが、私自身も仕事で何度か設定ミスにより正しく処理が動かないといった障害を経験している。

障害が発生した場合は、お客様の業務最優先で復旧作業に取り掛かる。

原因がすぐに判明しなければ徹夜で復旧もしなくてはいけないし、 復旧したとしても処理が正常に動作するか見守る必要だってある。

復旧作業が完了したら、お客様および上司から原因追求および再発防止策の追求が待っている。

今回のみずほ証券のように大規模なシステムで人為的ミスで障害を発生させた場合は、恐ろしくて考えたくもない。

実際に私自身 、金融業界のシステムを担当したことは無いが、 システム担当者がお客様に呼ばれ、重役クラスから徹底的に原因追求をされると聞いたことがある。

かなりメンタルがやられることもあり、休職した担当者もいたと聞いた。

本番環境で設定変更作業を行う時は、 必ずチェックリストを用意し、最低2人以上で設定変更を行う。

ただ、人間が変更作業を行なっている以上、ミスが発生する可能性は0ではない。

例えば、小文字のl「エル」と大文字のI「アイ」と、 人間の目では同じように見えてしまい問題ないと判断したとする。

機会的には全く別の文字列であると判断されるため、 処理は動かなくなってしまう。 当然、大規模なシステムになればなるほど、影響範囲は膨大になる。

また、今回みずほ証券で発生した障害は、原因特定から復旧まで数日間 を要しており、利用者の信頼が失墜していると記載している記事も見受けられた。

大げさな例かもしれないが、たった1文字違うだけでもシステムは、 動かなくなり、会社全体の信頼を大きく落とすことに繋がることもある。