Планировщик IBM Spectrum LSF

Очередью заданий на системе IBM Polus, установленной на факультете ВМК МГУ, управляет планировщик IBM Spectrum LSF.

Постановка заданий в очередь

Для постановки заданий в очередь используется команда bsub.

Формат команды:

       bsub [options] command [arguments] 

Ключ Значение
-n <число процессов> требуемое число ядер
-W <[часы:]минуты> предполагаемое время счета задания в формате [часы:]минуты
-i <имя файла> перенапрвление stdin на заданный файл
-o <имя файла> перенаправление stdout в заданный файл
-e <имя файла> перенаправление stderr в заданный файл
-tty перенаправление stdout/stderr на терминал

Примеры использования:
 bsub -n 8 -W 3:30 -o result.out ./my_program 

Запустить my_program на 8 ядрах на 3 часа 30 минут при этом стандартный вывод перенаправить в файл result.out.

Просмотр очереди

Для просмотра очереди заданий используется команда bjobs.

Для её запуска вводим

 bjobs 

Команда bjobs без параметров выведет информацию о ваших текущих задачах поставленных в очередь.

Чтобы узнать информацию обо всех задачах (в том числе других пользователей), поставленных в очередь в данный момент, необходимо ввести:

 bjobs -u all 

В этом случае выведется список следующего вида:

JOBID   USER                 STAT  QUEUE      SLOTS NALLOC_SLOT JOB_NAME                       SUBMIT_TIME  ESTIMATED_START_TIME TIME_LEFT   PEND_REASON
2895    erofeev              RUN   normal     1     1           */data/adobe/rgba --cuda-dev 0 Sep  4 17:14          -           1:46 L      -
2896    erofeev              RUN   normal     1     1           *s-alphamatting-padded/narrow/ Sep  4 17:14          -           1:46 L      -
2909    zhukov_ka            RUN   normal     20    20          *J.err;mpiexec ./task -n 20000 Sep  6 15:28          -           0:14 L      -
2910    zhukov_ka            RUN   normal     10    10          *J.err;mpiexec ./task -n 10000 Sep  6 15:28          -           0:15 L      -
1598    bagrovnyu            PEND  normal       -   0           ./solve_mpi_cuda 10000 4       Jun 20 18:43          -                -      Job's requirements for resource reservation not satisfied (Resource: ngpus_excl_t): 3 hosts;
Столбцы списка содержат следующую информацию (перечислены не все столбцы):

Заголовок Значение
JOBID Идентификатор задания: номер_задания
USER Идентификатор пользователя, от имени которого запускается задание
STAT Состояние задания (здесь приведены не все возможные значения, более подробно смотрите man bjobs):
  • RUN — задание выполняется в данный момент
  • PEND — задание ожидает запуска,
  • DONE — задание завершилось с нулевым статусом
  • EXIT — задание завершилось с ненулевым статусом
QUEUE Очередь, в которую поставлена задача
SLOTS/NALLOC_SLOT Количество ядер, занятых задачей
JOB_NAME Имя задачи
SUBMIT_TIME Время постановки задачи в очередь
TIME_LEFT Время, оставшееся до окончания задачи

Удаление задач из очереди

Чтобы удалить из очереди задание, ожидающее постановки на счет, или снять со счета уже идущее задание, используется программа bkill. Например, команда

 bkill  1157

удалит из очереди задание с идентификатором 1157 (идентификатор задания показывается в поле JOBID выдачи программы bjobs), а команда

 bkill -u pupkin

снимет все задания пользователя pupkin. В обоих случаях задание будет удалено из очереди только в том случае, если к команде bkill обратился его владелец или привилегированный пользователь.