大規模データ消失障害

ファーストサーバ社において大規模データ消失障害が発生した。

 

本障害の原因について当該事業者よりホームページ上での説明が掲載されているが、最も重要なポイントは更新プログラムのリスク管理である。

脆弱性対策の更新プログラムの適用は必要な処理であり省略することはできない。しかし、そのプログラムが及ぼす影響を十分に計画、認識しておくこと、またもし対象サーバが拡大してしまう仕様であった場合には、そのリスクを事前に把握しておくべきであった。

この更新プログラムには、対象サーバ群の範囲が指定できる仕様であった。しかし確認手順には対象サーバ以外の動作確認が含まれていなかったという不整合が発生している。そのため、本番環境・バックアップ環境への同時適用の結果今回の大規模障害が発生した。

私の経験したシステム開発においても更新プログラムの適用に関するリスク管理は慎重に行っていた。動作確認範囲は更新プログラムの仕様に関連するので、常に同じではなく、個々のケースに適した設定が必須である。

また、緊急時に備えてバックアップ処理系を冗長化したものも多かったが、更新プログラムの適用は必ず検証環境・本番環境・バックアップ環境に順次適用し、それぞれ動作確認を行っていた。検証環境をすり抜けた不具合が、本番環境適用直後に見つかり、急遽バックアップ環境に切り替えリカバリ作業を行った例もあった。

大規模データ消失という非常に大きな損害が発生するリスクを十分に把握し、更新プログラムの確認手順、運用環境への適用手順をもう一度見直すことが重要である。

コメントは受け付けていません。