復旧機能
Apple Qmaster 分散処理システムでエラーが発生すると、次で説明する復旧機能
が自動的に作動します。管理者がこの機能を有効にしたり設定したりする必要は
ありません。
418
第 29 章
Apple Qmaster と分散処理
サービスが異常終了した場合
あるサービスノードにて、クラスタコントローラサービスまたは処理サービスが
異常終了した場合、Apple Qmaster 分散処理システムはサービスを再起動します。
停止と再起動を延々と繰り返さないよう、システムがエラーのあったサービスを
再起動するのは 4 回までに制限されます。はじめの 2 回、システムはサービスを
即座に再起動します。サービスが 3 回目または 4 回目に異常終了した場合、シス
テムは停止前に少なくとも 10 秒間動作していたサービスのみを再起動します。
バッチが途中で停止した場合
Apple Qmaster バッチの処理中にサービスが異常終了すると、クラスタコントロー
ラは、サービス停止前に完了していたバッチセグメントの再処理を行わずに、中
断されたバッチを再実行します。クラスタコントローラはバッチの再開を、サー
ビスとの接続が切れて約 1 分後に遅らせます。
バッチがエラーになった場合
サービスの実行中に 1 つのバッチの処理が失敗すると、サービスの例外が発生し
ます。この状況では、クラスタコントローラは即座にバッチを再実行します。ク
ラスタコントローラは、バッチを最高で 2 回再実行します。3 回目の実行時にも
ジョブがエラーになると、分散処理システムはジョブの再実行を停止します。
「Share Monitor」でジョブの状況が「失敗しました」に設定されます。