ここにはコマンドについて調べたことを書く。 やりたいことからの逆引き的な情報は 使用法

see Takeru Grid Engine 簡易操作マニュアル

1 qsub

submit a batch job to Sun Grid Engine.

see qsub.html.

2 qalter

modify a pending or running batch job of Sun Grid Engine.

主なオプション
 qsub で指定可能なオプションと共通です。
 -a [date] 実行開始日時を指定(書式は MMDDhhmm)
 -cwd ジョブをカレントディレクトリで実行
 -e [path] 標準エラーを指定したファイルに保存(デフォルトは“スクリプト名.e ジョブ ID”)
 -j [y|n] 標準出力と標準エラーを 1 つのファイルに保存
 -m [mail option] ジョブがある状態になると実行ノードがメールで通知(デフォルトはメール通知なし)
     a ジョブが中止になったとき、再スケジュールされたときにメールで通知
     b ジョブの実行が始まったときにメールで通知
     e ジョブの実行が終了したときにメールで通知
     s ジョブがサスペンド・再開されたときにメールで通知
     n メール通知なし
 -N [job_name] ジョブ名の指定 (デフォルトはスクリプトファイル名)
 -o [path] 標準出力を指定したファイルに保存(デフォルトは“スクリプト名.o ジョブ ID”)
 -p [priority] ジョブのプライオリティを設定(デフォルトは 0)
 -pe [pe_name] [num_proc]
  並列ジョブ実行時の並列環境と使用プロセス数(並列ジョブについては後述)
 -q [queue] 使用キューの指定(デフォルトは自動的に空いているキューに投入) 

投げているキューを変更もできる。 ウチの環境ではキューと並列環境とコア数を同時に指定することが多いだろう。 44340 を変更する場合、

qalter -q Ag.q -pe Rh.openmpi 1 44340

3 qdel

7449 0.34397 vaspgeomop ippei        dr    06/08/2015 08:44:58 Ga.q@Ga07.calc.atom                4
7450 0.34397 vaspgeomop ippei        dr    06/18/2015 15:49:58 Ga.q@Ga04.calc.atom                4
7454 0.34397 vaspgeomop ippei        dr    06/18/2015 19:31:58 Ga.q@Ga02.calc.atom                4

こういう 「dr」状態でずっと残る。 なお、d は削除中、r は実行中? 「qdel -f 7449」 などと試してみる。

実行ホストがダウンしているなど、通信できないので消せないとかかなあ。

管理者は -f オプションで問答無用に削除できる。 しかし、-f オプションで消したときに gridengine 全体の設定を吹き飛ばすことが多い気がする。 基本的にやらない。

4 qhold

待機中のジョブをホールドします。ホールド中のジョブは、実行可能な状態にするコマンド(qrls)を実行するまで待機 中の状態が維持されます。リソースが空いていてもホールド中のジョブがディスパッチされることはなく、その次に待機 中のジョブが先にディスパッチされます。 ジョブをホールドする権限を持つのは、そのジョブを投入したユーザアカウントか root アカウントのみです。また、ホ ールドの対象となるのは待機中のジョブのみです。

再開するには qrls

5 qrls

qhold と対。 hold 状態のジョブを再開。

6 qhost

クラスター全体の状態を表示。

HOSTNAME                ARCH         NCPU  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
-------------------------------------------------------------------------------
global                  -               -     -       -       -       -       -
Ag00.calc.atom          lx26-amd64      4  4.01   15.4G    1.2G   15.9G     0.0
Ag01.calc.atom          lx26-amd64      4  0.01   15.4G  280.9M   15.9G     0.0
(snip)

7 qlogin

submit an interactive login session to Sun Grid Engine.

8 qmod

実行中のジョブのサスペンド。 リソース占有状態のままなので、新しいジョブが入ったりしない。

再開するには qmod -us job_id

9 qquota

リソースの割り当てルールを扱う?

10 qresub

submit a copy of an existing Sun Grid Engine job.

同じディレクトリでジョブが追加発行される。 使い道がわからない。

11 qrsh

submit an interactive rsh session to Sun Grid Engine.

空いてるホストを探して ssh コネクションを張り、対話的シェルで操作できるようにする。

12 qselect

キューとホストのリストを表示?

ippei@Re % qselect H                                                  [17-02-08 14:27:18]
Ag.q@Ag00.calc.atom
Ag.q@Ag01.calc.atom
Ag.q@Ag02.calc.atom
Ag.q@Ag03.calc.atom
Ag.q@Ag04.calc.atom
Ag.q@Ag05.calc.atom
Ag.q@Ag06.calc.atom
Ag.q@Ag07.calc.atom
Cd.q@Cd00.calc.atom
Cd.q@Cd01.calc.atom



ippei@Re % qselect -q Ag.q                                            [17-02-08 14:27:02]
Ag.q@Ag00.calc.atom
Ag.q@Ag01.calc.atom
Ag.q@Ag02.calc.atom
Ag.q@Ag03.calc.atom
Ag.q@Ag04.calc.atom
Ag.q@Ag05.calc.atom
Ag.q@Ag06.calc.atom
Ag.q@Ag07.calc.atom


ippei@Re % qselect -pe Ag.openmpi                                     [17-02-08 14:27:11]
Ag.q@Ag00.calc.atom
Ag.q@Ag01.calc.atom
Ag.q@Ag02.calc.atom
Ag.q@Ag03.calc.atom
Ag.q@Ag04.calc.atom
Ag.q@Ag05.calc.atom
Ag.q@Ag06.calc.atom
Ag.q@Ag07.calc.atom

# 起きていないホスト?
ippei@Re % qselect -qs u H                                            [17-02-08 14:28:26]
Ag.q@Ag05.calc.atom
Cd.q@Cd05.calc.atom
Ga.q@Ga00.calc.atom
Ga.q@Ga01.calc.atom
Ga.q@Ga02.calc.atom
Ga.q@Ga03.calc.atom
Ga.q@Ga04.calc.atom
Ga.q@Ga05.calc.atom
Ga.q@Ga06.calc.atom
Ga.q@Ga07.calc.atom

# 起きていないホスト?
ippei@Re % qselect -qs E                                              [17-02-08 14:29:52]
Cd.q@Cd05.calc.atom
Ge.q@Ge02.calc.atom
Kr.q@Kr02.calc.atom
Pd.q@Pd00.calc.atom
Pd.q@Pd01.calc.atom
Pd.q@Pd02.calc.atom
Pd.q@Pd03.calc.atom
Pd.q@Pd04.calc.atom
Pd.q@Pd10.calc.atom
Ru.q@Ru09.calc.atom
Se.q@Se00.calc.atom
Sr.q@Sr00.calc.atom
Sr.q@Sr07.calc.atom

13 qstat

キューの状態を知る

see qstat.html.