●1. 重大事故 (5件) の原因と対策
(1) 2011年4月30日に発生した事故
対象サービス |
au携帯電話サービス |
発生時間 |
2011年4月30日 6時36分~14時57分 (8時間21分) |
発生事象 |
au携帯電話 (スマートフォン含む) のデータ通信がご利用しづらい状態となりました。 |
対象エリア |
全国 |
障害原因 |
パケット設備 (ネットワーク設備) の不具合
- ハードウェア故障によりシステムの動作が不安定となり冗長機能が正しく動作できなくなったため。
|
対策 |
- 同一機種の筐体を全て交換 (完了)
- 冗長機能不備の対処として、システムの動作不安定を予防する機能の追加 (完了)
- 故障を早期に検知するため、アラーム発報機能の追加 (完了)
|
(2) 2011年11月2日に発生した事故
対象サービス |
au携帯電話サービス |
発生時間 |
2011年11月2日 2時10分~9時44分 (7時間34分) |
発生事象 |
au携帯電話の発着信、Eメールの着信お知らせ、Cメールの発着信がご利用しづらい状態となりました。 |
対象エリア |
埼玉県等の一部 |
障害原因 |
交換設備 (交換機) の不具合
- ソフトウェア更新作業中の片系運転時にハードディスク制御部の故障により両系障害
|
対策 |
- ソフトウェア更新時の正常性確認手順の追加 (完了)
- 万一の同一事象発生時における復旧手順の確立 (完了)
- ソフトウェア更新時に片系運転にする必要がないようシステム改修を実施
(次回ソフトウェア更新時に実施予定)
|
(3) 2012年1月25日に発生した事故
対象サービス |
au携帯電話サービス、固定通信サービス、法人系サービス |
発生時間 |
2012年1月25日 23時33分~2012年1月26日3時3分 (3時間30分) |
発生事象 |
au携帯電話サービスがご利用しづらい状態となりました。また、固定通信サービス (メタルプラス電話、ケーブルプラス電話など) および法人系サービスにおいてご利用できない状態となりました。 |
対象エリア |
東京都西部 |
障害原因 |
伝送設備の不具合
- 制御基盤のメモリの処理容量が不足し、現用系制御基盤の動作異常となった。
|
対策 |
- 制御基盤の定期的な点検 (メモリリセット作業)
- 万一の同一事象発生時における復旧手順の確立 (完了)
- メモリの処理容量不足時の冗長切替機能 (ソフトウェア改修) の追加
(2012年9月末完了予定)
|
(4) 2012年2月9日に発生した事故
対象サービス |
au携帯電話サービス、法人系サービス |
発生時間 |
2012年2月9日 16時11分~18時45分 (2時間34分) |
発生事象 |
auスマートフォンのデータ通信サービスおよびリモートアクセスサービスが、ご利用しづらい状態となりました。 |
対象エリア |
全国 |
障害原因 |
パケット設備 (ネットワーク設備) の不具合
- 商用前設備のハードウェア故障により、商用前設備/商用設備間においてパケット信号がループ状態となり、設備が高負荷の状態となった。切替先の設備も高負荷となり切り替えが行われなかった。
|
対策 |
- 故障を起こした同一カード全数の正常性確認 (完了)
- パケット信号のループ防止機能の追加 (完了)
|
(5) 2012年2月11日に発生した事故
対象サービス |
au携帯電話サービス |
発生時間 |
2012年2月11日 20時35分~23時59分 (3時間24分) |
発生事象 |
au携帯電話 (auスマートフォンを含む) において、Eメール送受信 (ezweb.ne.jp) がご利用しづらい状態となりました。 |
対象エリア |
全国 |
障害原因 |
電源設備の不具合
- UPSの切替制御不良および点検作業手順の考慮漏れにより電源供給が出来なくなった。
|
対策 |
- 点検手順の見直し (完了)
- 作業部門とサービス監視部門の連携強化 (完了)
- 新組織「電力インフラ対策室」設置による管理体制強化 (2012年4月設置)
|
●2. 今後の改善への取り組み
(1) お客さまや通信量の増加に適切に対応するための電気通信設備の配備
- 従来から設計基準に沿った電気通信設備の増設を行っているが、適切に実施されていることを改めて点検・確認
- 適切な設備増設の継続的なPDCAサイクル実施体制の維持
- 2011年10月よりスマートフォンによるデータトラヒック急増に適切に対応するためのアクセス集中対策を実施していたが、対象システムを拡大し、点検・確認 (2012年3月29日完了)
(2) 電気通信設備の故障等の発生に対応するための適切な予備設備の配備および監視体制の構築
- 「冗長機能信頼性強化ガイドライン」の見直しと対象設備の拡大 (2012年3月26日改訂)
- 冗長機能の点検 (2012年6月末までに順次整備)
- 「設備受入れ評価ガイドライン」の制定 (2012年3月26日)
- 重大事故発生の抑止と発生時の影響極小化に向け「特別通信対策室」ならびに電源設備の管理体制強化に向け「電力インフラ対策室」を新設 (2012年4月1日予定)
- サービス復旧手順書の点検・整備 (2012年3月23日完了)
(3) 過負荷試験等を通じた輻輳防止
- 設備導入時の過負荷試験実施状況を点検し、高負荷時においてもシステムダウン等の重大な問題がないことを確認 (2012年6月末までに順次)
- 商用ネットワークに近い環境での試験強化のため、検証環境を充実。 (2012年7月末予定)
(4) お客さまに対する適切な対応
- 迅速な情報提供を実施するため情報提供フローの見直しを実施 (2012年4月1日開始)
- 社内連絡体制の強化 (2012年4月1日開始)
- 故障情報公表へのソーシャルメディアの活用 (2012年4月開始予定)
●3. 「携帯電話通信障害対策連絡会」の要請事項に対する取組み
(1) 冗長機能に不具合が生じないこと
- 「冗長機能信頼性強化ガイドライン」の見直しと対象設備の拡大 (2012年3月26日改訂)
- 冗長機能の点検 (2012年6月末までに順次整備)
(2) 設備の設計・設定・配備に誤りがないこと
- 設計基準に沿った電気通信設備の増設
従来から設計基準に沿った電気通信設備の増設を行っているが、適切に実施されていることを改めて点検・確認
- 適切な電気通信設備の配備に対する体制
適切な設備増設の継続的なPDCAサイクル実施体制が維持されていることを確認
- 適切な設備増設を実施するためのトラヒック管理項目の点検
- アクセス集中時の動作仕様およびパラメータの点検
2011年10月よりスマートフォンによるデータトラヒック急増に適切に対応するためのアクセス集中対策を実施していたが、対象システムを拡大して、点検・確認 (2012年3月29日完了)
- 「設備受入れ評価ガイドライン」の制定 (2012年3月26日)
- 組織・体制の強化
重大事故発生の抑止と発生時の影響極小化に向け「特別通信対策室」ならびに電源設備の管理体制強化に向け「電力インフラ対策室」を新設 (2012年4月1日予定)
- サービス復旧手順書の点検・整備 (2012年3月23日完了)
(3) ソフトウェアに不具合がないこと
- 社内ガイドラインに基づく、ソフトウェア品質の点検
- 「商用設備への新ソフトウェア適用ガイドライン」の制定 (2012年3月26日)
(4) 電源設備で障害が発生しないこと
- 電源設備の点検
ネットワークセンター全拠点の電源設備の点検を実施。 (2012年3月29日)
2012年2月11日に発生した事故の原因が他メーカーの電源設備にも内在していないかを 点検し、問題ないことを確認 (2012年3月1日)
- 電源設備の導入手順の見直し
電力整備点検等の保守作業時に不具合が発生する可能性がある全ての電源設備を対象として、「電源設備導入・運用ガイドライン」を制定 (2012年3月26日) し、設備の導入、改修、点検のタイミングで問題点を事前に把握できる仕組みを導入
(5) 不正プログラムの混入等がないこと
- 情報セキュリティ対策の点検 (2012年3月23日)
アカウント管理システムが仕様通り適正に稼動していることをISMSによるPDCAサイクルを通じて確認
アカウント管理システムを経由せず、電気通信設備にアクセスされないことを確認
- 不正アクセス・DDoS対策
専門部署による、事業用設備のセキュリティ監視(24時間365日) とインターネットに接続される事業用サーバに対する脆弱性診断 (月次) の実施
- マルウェア感染対策
事業用設備監視ネットワーク上で常時動作しているウイルス対策ソフトまたは検疫システムを点検し、感染した設備がないことを確認 (2012年3月23日)
(6) 工事の際の手順に誤りがないこと
- 工事および作業の実施状況の点検
2012年2月22日以降に実施された全ての工事および作業において、手順書通り、誤りなく実施されている事を確認
- 工事および作業の実施に係る規程の点検