東工大共通メールの不調について(中間報告,その2) 2006/12/26

東工大共通メールシステムに 10 月 29 日より不具合があり,多くのユーザ
の皆さまにご迷惑をおかけしております.また,抜本的対策について発表す
るのが遅れました大変申し訳ありませんでした.

これまで本メールシステムの納入業者と問題点の究明と対策法について検討し
て参りましたが,昨日(12月25日)に総括を行い,以下のような結論に至りまし
た.

【原因】
1. メールの送受信数(*1)およびPOPアクセス数(*2)が増加し,メールスプール
   サーバ(*3)の入出力性能を超えてしまった.

2. この限度を超えると,いわゆる「目詰まり状態」(*4)になってしまい,処理
   速度が急激に悪くなる状況におちいってしまっていた.


【対策】
1. メールスプールサーバを複数台用意し,分散処理する方法(*5)を導入し,ま
   た,各メールスプールサーバのハードディスク構成を変更し(*6),入出力性
   能を向上させる.

2. メールシステムのソフトウェア(アルゴリズム)を見直す(*7).

3. 以上により,120 万件/日程度になっても(*8),限度を超えないような処理
   システムにする.また,将来のメール処理数の増加に対しても,適宜,増強
   できるシステムにする.

以上の対策を,機器の準備が整い次第,遅くとも 1月29日までに行い,それによ
り,安定運用を実現する所存です.(新システムへの移行のため,メールシステ
ムの休止が1日~2日,必要になります.詳しい日程は,後ほど,東工大ポータル
にてお知らせします.)

皆様には,多大なご迷惑をおかけして申し訳ありません.上記の日程での完全復
旧を目指しますので,何卒,ご理解くださいますよう,お願いいたします.

学術国際情報センター副センター長
学術国際情報センター情報基盤検討専門委員会委員長
渡辺 治

------------
(注釈)
*1:1日あたりの送受信数:9月 9万件,10月 18万件,12月 推定40万件
*2:1日あたりのPOPアクセス数:9月 5万件,10月13万件, 12月 推定15万件
*3:メールスプールサーバを,11月に Sun Fire X4500に換えたが,12月に再度
    iStorage NV7200(ベンダー推奨機)に換えた.それでも各ハードディスク装置
    の入出力性能が限界値(120IOPS)をオーバした.
    (現ディスク構成は Fibre Channel 10,000 rpm,RAID-5)
*4:メールスプールサーバには,複数(現在5台)のメールサーバからNFSに
    よるアクセスを行っているが,限界を超える処理を強いられているため,N
    FSのロックエラーが頻繁に発生し,また処理速度の大幅な低下が発生した.
*5:スプール領域を複数領域に分割し,複数台のメールスプールサーバに負荷分
    散する.
*6:全ハードディスク装置を10,000rpmから15,000rpmのものに交換する.また,
    RAID構成をRAID-5 から RAID-10 へ変更する.
*7:IMAP/Web メールの高速化.ロック制御の見直し.
*8:共通メールと代行サービスを合わせて,ほぼ 80 万件/日,と推定.


============

追伸:冬休み期間のメールについて

冬休み明けに大量の受信(とくにスパムメールの受信)が予想されます.アクセ
スが困難でない方には,できましたら,冬休み中も,ウェブメールで受信フォル
ダを開く(*),あるいは,パソコンのメーラでアクセスする,などを適宜行って
頂くよう,ご協力をお願いします.

*:新規メールを受信フォルダに移動させておくだけで,システムへの負担の減
   少がはかれます.中身を読む必要はありません.

以上