#!/bin/bash #SBATCH --job-name=your job name #SBATCH --nodes=1 # 节点数,一台机器一个节点 #SBATCH --ntasks=1 # 任务数 #SBATCH --gres=gpu:4 # 请求4个GPU #SBATCH --cpus-per-task=16 # cpu-cores per task (>1 if multi-threaded tasks) #SBATCH --mem-per-cpu=4G # memory per cpu-core (4G is default) #SBATCH --output=slurm_output_%j.log # 输出文件名,其中%j表示作业ID #SBATCH --error=slurm_error_%j.log # 错误文件名 #SBATCH --mail-type=ALL #SBATCH --mail-user=your email #SBATCH --exclude dgx010,dgx011,dgx020,dgx031,dgx034,dgx038,dgx039,dgx040,dgx050,dgx051,dgx063,dgx064,dgx074,dgx078 # 不要跑在这些节点上 #SBATCH --nodelist dgx010,dgx011,dgx020,dgx031,dgx034,dgx038,dgx039,dgx040,dgx050,dgx051,dgx063,dgx064,dgx074,dgx078 # 要跑在这些节点上
# 提交任务 sbatch xxx.sh # 取消指定任务 scancel 123 # 查看队列 squeue squeue -u "名字" # 查看任务详情 scontrol show job 123 # 查看所有任务 pestat -G pestat -G | grep -v "down" pestat -G | grep -v "down" | wc -l