ai 학습실행 run command 수정

This commit is contained in:
2026-03-10 23:09:39 +09:00
parent f3e5347335
commit da31bd9d99

View File

@@ -54,6 +54,9 @@ public class DockerTrainService {
@Value("${train.docker.ipcHost:true}") @Value("${train.docker.ipcHost:true}")
private boolean ipcHost; private boolean ipcHost;
@Value("${spring.profiles.active}")
private String profile;
private final ModelTrainJobCoreService modelTrainJobCoreService; private final ModelTrainJobCoreService modelTrainJobCoreService;
/** /**
@@ -228,8 +231,11 @@ public class DockerTrainService {
// GPU 전체 사용 // GPU 전체 사용
c.add("--gpus"); c.add("--gpus");
c.add("1"); // 학습서버 GPU 1개인 곳은 1이어야 함 if ("prod".equals(profile)) {
// c.add("all"); c.add("1"); // 학습서버 GPU 1개인 곳은 1이어야 함
} else {
c.add("all");
}
// IPC host 사용 여부 // IPC host 사용 여부
if (ipcHost) { if (ipcHost) {
@@ -282,8 +288,12 @@ public class DockerTrainService {
addArg(c, "--crop-size", req.getCropSize()); addArg(c, "--crop-size", req.getCropSize());
// addArg(c, "--batch-size", req.getBatchSize()); // addArg(c, "--batch-size", req.getBatchSize());
// addArg(c, "--gpu-ids", req.getGpuIds()); // null // addArg(c, "--gpu-ids", req.getGpuIds()); // null
addArg(c, "--batch-size", 2); // 학습서버 GPU 1개인 곳은 batch-size:2 까지만 가능 if ("prod".equals(profile)) {
addArg(c, "--gpu-ids", "0"); // 학습서버 GPU 1개인 곳은 0이어야 함 addArg(c, "--batch-size", 2); // 학습서버 GPU 1개인 곳은 batch-size:2 까지만 가능
addArg(c, "--gpu-ids", "0"); // 학습서버 GPU 1개인 곳은 0이어야 함
} else {
addArg(c, "--batch-size", req.getBatchSize()); // 학습서버 GPU 1개인 곳은 batch-size:2 까지만 가능
}
addArg(c, "--lr", req.getLearningRate()); addArg(c, "--lr", req.getLearningRate());
addArg(c, "--backbone", req.getBackbone()); addArg(c, "--backbone", req.getBackbone());
addArg(c, "--epochs", req.getEpochs()); addArg(c, "--epochs", req.getEpochs());
@@ -448,8 +458,11 @@ public class DockerTrainService {
c.add("run"); c.add("run");
c.add("--rm"); c.add("--rm");
c.add("--gpus"); c.add("--gpus");
c.add("1"); // 학습서버 GPU 1개인 곳은 1이어야 함 if ("prod".equals(profile)) {
// c.add("all"); c.add("1"); // 학습서버 GPU 1개인 곳은 1이어야 함
} else {
c.add("all");
}
c.add("--ipc=host"); c.add("--ipc=host");
c.add("--shm-size=" + shmSize); c.add("--shm-size=" + shmSize);