前号: No 229 / 次号: No 231 / 一覧に戻る
みずほ銀行の2月28日のトラブルについて、みずほ銀行から報告書 が提出されています。 その報告書にもとづいた解説の4回目となります。 今回は事故そのものよりも、どうすべきだったのか?という視点 での解説となります。1. 2月28日に起きたこと(概要)
2021年2月28日にみずほ銀行で以下のようなトラブルが発生しました。 ・みずほ銀行の中央システム(MINORIシステム)上のプログラムで 動作ミスが発生。 ・その余波で、MINORIシステムの動作に問題がおきる。 ・MINORIシステムは(自己保全のため)ATMからの接続を制限。 ・ATMはMINORIシステムに接続するが、接続エラーとなる。 ・エラー発生で、ATMはカードや通帳を機械に取り込む。 ・数千人のお客さんがATMから動けずに立往生した。 このトラブルは前回も書いたように多くの原因が複合したもの です。 1. プログラムがメモリ領域の不足を引き起こした 2. 2重エラーを起こしてしまった 3. 2重エラーによって外部システムの接続を拒否した 4. ATM側で接続拒否の際に、カードを引き込んでしまった 5. ATMでのトラブル把握はできたものの、周知対応が遅れた 6. コールセンターが大半の電話を受けられなかった 7. お客さんへの告知が遅れた 8. 被害が拡大しないような方策が遅れた また、銀行内の各部署での動きについても多くの問題がありました。 9. トラブルを過少評価してしまった 10. 部署間の連絡が不十分だった 11. システム運営担当の視野の狭い対応により被害を拡大させた。 こういった原因の多くはみずほ銀行に限る話ではなく、どんな組織 でも起きえますので、分析することは有意義なことだと思います。 前回までで4,5項について書きました。(実際には、6,7項について もかなり言及しています)今回は前回を踏まえて、「こうならない 方法はなかったのか?」という視点での筆者の見解を示します。 なお、みずほ銀行の報告書は以下のページで閲覧することができ ます。興味のある方は是非ご一読ください。 「システム障害特別調査委員会の調査報告書の受領について」 https://www.mizuho-fg.co.jp/release/20210615release_jp.html2. 今回のポイント
前回の記事では項番5についての考察をしたつもりだったのですが、 実際には、項番6〜8についてもかなり書いています。 5. ATMでのトラブル把握はできたものの、周知対応が遅れた 6. コールセンターが大半の電話を受けられなかった 7. お客さんへの告知が遅れた 8. 被害が拡大しないような方策が遅れた 今回はこの点をもう少し掘り下げ、ここまでの事態に至らずに 済ませる方法はなかったのか?という視点で考えてみたいと 思います。 あらかじめ申し上げておきます。 以下の考察は全ての状況がわかっている現在だからこそ言える内容です。 ですが、当日は時間に追われ、正確な情報が共有されず、部署間の連携 も取れていないといった状況でした。 今回はみずほ銀行にはどんな対策を取ることができたのか?という 視点での筆者の見解を示すことが目的です。 そのため、みずほ銀行の批判はあまりしていません。3. コールセンターは何ができたか?
ATMにはたいてい直通電話が付いています。 お客さんは何か困ったことがあると、この電話を使ってコールセン ターの担当者と話をして、トラブル解消をします。 2/28の事故では、カードが取り込まれたお客さんからの相談電話が 殺到してしまいます。 当日は通常の休日体制で、8名のオペレータで対応をしていました。 ところが、トラブルのピーク時にはほとんど(最大96%)の電話が 取れない(お客さんからすると電話に出てもらえない)状況となり ました。 ATMセンターでは責任者も含めて全員(13名)で対応を行ったものの その程度の増員でどうにかなる状共ではありません。(ピーク時は 10分間で1000件程度のコールがあったようです。 とても電話が取れない状況を解消できるものではありません。 そのため、取れない電話が増え始めた10:15にはみずほ銀行内の 各部署向けにメールを発信し、緊急事態であることを伝えました。 ですが、それ以降は自ら発信をすることはありませんでした。 (他からの問い合わせの回答は行っていたようです) コールセンターはお客さんとの直接の窓口ですから、苦情も状況も 一番適切に把握できていたはずです。 ですから、コールセンターは工夫さえすれば発信塔として、いろんな 情報発信ができたはずです。 もちろん、そういった情報発信には労力がかかりますから、その分 お客さんの電話対応ができるオペレータを減らすことになります。 現場としては、そんな情報発信に労力を費やすより、一件でも多く の電話に出て困っているお客さんに対応したかったのかもしれ ません。 ですが、それは間違った現場感覚と言わざるを得ません。 コールセンターとしては、コール対応数を減らしてでも、問い合わせに 関する情報を例えば15分ごとに集約し、社内に広く周知すべきでした。 ここで正しい状況が周知できていれば、バグの発生状況よりもお客さん 対応が重要であることに気付いていた可能性はずっと高くなります。 こういった緊急事態下では、正しい情報がどれだけ提供されるかがキモ です。 コールセンターが定期的に情報提供できなかったことはこの事故を 大規模化させた大きな要因だと筆者は思います。 コールセンターの緊急時の動線について、BCP(事業継続計画)などに 規定があったかどうか不明ですが、それが活かされなかったことが 残念です。3. 開発部門は何ができたのか?
今回のトラブルは、もともとはシステム部門のミス(データベース で理用するメモリ領域不足)が原因でした。 もちろん、ミスなど起きないのがいいに決まってます。ですが、 ミスが起きれば、その原因究明は開発部門の仕事ですし、そこに 注力するのは当然の話です。 その意味では、開発部門は自らの職務を忠実だったのですが、それ でもできたことがあります。 原因を調べる過程では、必ずエラー発生状況を確認します。 すると、そこには多数のATM側でのエラーが報告されていることに 気付いていたはずです。 みずほ銀行のシステムは巨大ですから、自分達と関係ないエラーも そりゃ数件はあっても不思議ありません。 ですが、調査を始めた時点では既に数百のエラーが発生していた はずですから、見落とすというのは不自然です。 結局、現場として気は付いていたが、自らが緊急対応している状況 でヨソまで気を回していられない、ということだったのでしょう。 コールセンターの場合と同様ですが、ここで大量のエラーが発生 していることを社内に周知できていれば、事故の様相はかなり違って いたと思います。 とはいいながら、いざトラブルに巻き込まれると眼前のコトに振り 回されがちですが、こういった時にこそ横連携、情報共有は極めて 重要かつ有効なのです。4. 危機管理部門は何ができたのか?
みずほ銀行は大企業です。企画部門の中には危機管理室があります。 こういった緊急事態では危機管理部門が陣頭指揮を取るのが一般的 です。 こういった事故では初動が何より大切です。 そして、初動にはとにかくスピードが求められます。 つまり、事態が起きたとなれば、スグにチームを組み、情報収集に 乗り出す必要があります。 今回の事故を例に取ると、発生から1時間以内に最初のトラブル 多発が、さらに3時間以内にその第二波が発生しています。 事故発生から1時間以内に行動を開始し、情報収集ができていれば、 第二波の発生が防げていた可能性があります。 ですが、今回の事故での危機管理室は精彩を欠きます。 危機管理室が事故を知るのは発生から1時間半後、具体的な行動を 取るにはさらに1時間超を要しています。 これでは、第二波が既に発生した後ですので、第三波以降を防ぐ のが精いっぱいです。(実際、第三波は発生していません) 初動までのスピードを上げることの大切さがわかります。5. カンタンにスピートを上げる方法はない
ですが、休日に1時間以内に組織的な行動を取るなんて、言うのは 簡単でも、そうそうできることではありません。 それでもできるようにする方法はあります。 訓練です。 これは筆者の自論ですが、事故発生時の対応訓練というのは非常に 大切で、有効な方法です。 システム事故だって、情報セキュリティ事故だって災害です。 災害訓練が対策として効果的なのは皆さんご存知でしょう。 読んだだけ、聞いただだけでできる人なんてほとんどいません。 何も仕事に限りません。スポーツでも、ゲームでも、音楽でも料理 でも何だってそうです。 だから、皆さん上手になるために練習や訓練をするのです。 事故対応だって同じです。 本を読んだだけ、話を聞いただけで、何の訓練もなしでは、実際の 事故発生時にスムーズに対応できるわけがありません。 幸いなことに、日本の多くの会社は(行政からの半強制にしても) 災害訓練を毎年やっています。 つまり、訓練をするという素地はあるのです。 訓練を繰り返せば、確実に対応スピードは上げられます。 実は、訓練にはスピードアップ以上のメリットがあります。 最大のメリットは全員参加することで、参加者意識を高め られる点にあります。 この参加者意識の向上というのは絶大な価値があります。 前回のメルマガでも書きましたが、みずほ銀行のトラブルでは 多くの行員が「自分には関係ない」と考え、ヒトゴトと考え、 「勝手には動かない」という結論に陥ってしまったわけです。 ですが、当事者意識が強ければ、自分には何ができるのか? 何をすべきか?を考えられるわけです。 これができる組識はとてつもない力を持っています。 訓練というのは手間も時間もかかる方法ですが、スピードアップ の点でも、全員の意識を高める点でも間違いなく効果があります。 皆さんの組織ではBCP(事業継続計画)を作成しっぱなしになって いませんか? 定期的な訓練を行うことを強くオススメいます。 今回は、みずほ銀行の事例から、筆者なら取るであろう対処方法 について解説しました。 今回書いたことはあくまで、筆者の見解です。 他にもいろいろな考え方や対策があると思います。 今回の内容で参考になるところがあれば、是非実践してみてください。 次回もお楽しみに。 (本稿は 2021年10月に作成しました)