기계 학습 엔지니어링 에이전트 훈련을 위한 통합 샌드박스
Synthetic Sandbox for Training Machine Learning Engineering Agents
April 6, 2026
저자: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao, Hong Yan
cs.AI
초록
대규모 언어 모델 에이전트가 소프트웨어 엔지니어링(SWE) 작업을 넘어 머신러닝 엔지니어링(MLE) 영역으로 발전함에 따라 에이전트 행동 검증 비용은 기하급수적으로 증가합니다. SWE 작업은 빠르게 실행되는 단위 테스트를 통해 검증할 수 있지만, MLE 검증은 각 롤아웃 단계에서 대규모 데이터셋에 대해 전체 ML 파이프라인(데이터 전처리, 모델 학습, 메트릭 평가)을 실행해야 하므로, 트레이젝토리 단위 온-폴리시 강화학습(RL)을 실현하기에는 속도가 현저히 느립니다. 기존 접근법은 지도 미세 조정(SFT) 또는 오프라인 프록시 보상으로 후퇴하여 온-폴리시 RL의 탐색과 일반화 이점을 희생하고 있습니다. 우리는 샌드박스 데이터 크기가 이러한 병목 현상의 주된 원인이라는 점에 주목했습니다. 이러한 통찰을 바탕으로, 우리는 소수의 시드 작업에서 다양하고 검증 가능한 합성 MLE 환경을 생성하는 다중 에이전트 프레임워크인 SandMLE를 소개합니다. 이 프레임워크는 실제 문제의 구조적, 기술적 복잡성을 유지하면서도 데이터셋을 마이크로 스케일(각 작업당 50-200개의 훈련 샘플만配对)로 제한합니다. 광범위한 실험을 통해 SandMLE가 실행 시간을 13배 이상 단축하여 MLE 영역에서 최초로 대규모 트레이젝토리 단위 온-폴리시 RL을 가능하게 함을 입증했습니다. MLE-bench-lite에서 SandMLE는 Qwen3-8B, 14B, 30B-A3B 모델 전반에 걸쳐 SFT 베이스라인 대비 상당한 성능 향상을 보였으며, 상대 메달율 향상률은 20.3%에서 66.9%에 이르렀습니다. 더 나아가, 훈련된 정책은 보이지 않는 에이전트 스캐폴드 간에도 일반화되어 MLE-Dojo에서 최대 32.4% 더 높은 HumanRank 점수를 달성했습니다.
English
As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.