2007年 04月 21日
HDDは低温の方が故障しやすい?
 日経エレクトロニクス 2007年4月23日号に,「5th USENIX Conference on File and Strage Technologies」学会でGoogle社の Eduardo Pinheiro, Wolf-Dietrich Weber, Luiz Andre Barroso氏のが発表した「Failure Trends in a large Disk Drive Population」(リンク先のページからPDF版もダウンロード可)の抄訳が掲載された。

 一般にHDDは
  1)温度が高いと故障しやすい
  2)使用頻度が高いと故障しやすい
  3)初期故障がなければ結構長持ちするが,1-3年で交換するのが安全
  4)機種・製造年月日により故障率は大きく変わる
といわれている。
 4)が気になるところだが,原論文ではそのグラフもあったようだ(113ページの注2からの推測。ご存知の方はおられますか?)が,この抄訳では掲載されていない。

2007.4.22追記
 googleにリンクしている,上記論文をみると,「製造者,モデル,生産年」別のグラフはなかった。3.2に注2のとおりの記述がある。今回なぜこの区別をしなかったのかは,原論文に1パラグラフで明瞭に書かれている。

 使用期間と年平均故障率のグラフをみると,たしかに使用期間が2年以上のHDDは6%以上と高いが,3ヶ月未満のHDDでも使用頻度(1週間に読み書きしたデータ量の平均値)で上位25%のものは飛びぬけて故障率が高い(10%以上)。

 これらは,上記の「常識」に合致しているが,使用環境の温度との関係では,一概に「温度が高いと故障率が上がる」とは言い切れない。一般的傾向として,確かに温度が高いと故障率も高いのだが,低いときも故障率は高い。
 これは,私の経験とあっている。年末年始休暇や,2月の連休期間にパソコン教室など温度が下がる環境に設置しているサーバが停止する。それも,HDDの容量チェックなどをレポートするdaily処理中に停止するので,この論文を見ると「やっぱり」という気がする。
 ちなみに論文では
動作温度について総括すると,…適正な温度域では,温度以上に故障に大きく影響する要因があると考えれられる
とある。

 これはS.M.A.R.Tについて触れられているところとも関係する。
 S.M.A.R.Tのスキャン・エラー,リアロケーション回数と故障率の相関が高いことが示されているが,
故障したすべてのHDDのうち56%以上が,スキャン・エラー,リアロケーション回数,オフライン・リアロケーションなど,故障と相関が高そうな検査項目について,事前に何の警告も発せられなかった。
とある。さらに続けて,
上記以外のS.M.A.R.Tの検査項目を加えても,全体の36%以上のHDDで警告が発せられなかった。
そうである。

 やっぱり,「HDDは突然死するものなんだ」じゃなくて,「まだ故障原因はきちんと究明されていない。研究の余地があるし,寿命を延ばせる可能性がある」と見るべきだと思う。

 この950号は「たたいてつくるソフトウエア 検証しやすい設計へ」というカバーストーリーもあって,読みごたえのあるものです。 
[PR]

by ji3faf | 2007-04-21 14:36 | システム管理


<< NetCommonsとPSP      ”IT授業”実践ナビ >>


にほんブログ村 教育ブログへ




Map