2008年8月28日木曜日

UPSの不都合でデーターセンターが3日間シャットダウン

2-3の例だが、どんなに用意周到でも、問題は起こるという話。筆者のホスターを例に取る。ある金曜、電力会社からの配電が一時不安定になり、数秒配電が止まった。発電機が作動するほんの1分程度UPSが動作してサポートするはずであったが、作動しなかった。その後すぐ発電機が作動、また外からの供給も再開された。しかし、このため多くのサーバーがハード・リブート状態となった。ファイルがコラプトするものやディスクが潰れるものが続出して大混乱となった。当然、それぞれのサーバーに関して、fsckを行ったり、ディスクを交換してバックアップからファイルを戻したり、1つのサーバーに関して最高で10時間かかり、すべてのサーバー(200程度)を元に戻すのに、3日を要した。このとき筆者は日本に出張でいたが、フロリダのデータ・センターが回復するまで、3日間ウエブもメールも全く使えなかった。

原因はUPSのバッテリーが全く機能しなかったことだ。しかし、有効期間中で、交換まで数週間ありしかも、この問題が起きた次の週に交換する予定であった。どんなに、用意しても問題は起こる。この事故で、もう絶対にこのホスターを使わないという人とこれでもっと信頼性があがると思う人がいる。筆者は後者だ。冗長性は電力節減にはならないが、オペレーションが保障されないのではどうにもならない。この兼ね合いが難しい。

原文ここ

0 件のコメント: