Bac à Sable Synthétique pour l'Entraînement d'Agents en Ingénierie du Machine Learning
Synthetic Sandbox for Training Machine Learning Engineering Agents
April 6, 2026
Auteurs: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao, Hong Yan
cs.AI
Résumé
Alors que les agents de modèles linguistiques évoluent au-delà des tâches de génie logiciel (GL) vers le génie du machine learning (GML), la vérification du comportement des agents devient plusieurs ordres de grandeur plus coûteuse : si les tâches de GL peuvent être vérifiées via des tests unitaires à exécution rapide, la vérification en GML nécessite d'exécuter des pipelines ML complets — prétraitement des données, entraînement du modèle et évaluation des métriques — sur de grands jeux de données à chaque étape de déploiement, ce qui rend l'apprentissage par renforcement (RL) *on-policy* trajectoriel prohibitivement lent. Les approches existantes se replient sur le fine-tuning supervisé (SFT) ou des récompenses proxy hors-ligne, sacrifiant ainsi les bénéfices en exploration et généralisation du RL *on-policy*. Nous observons que la taille des données en environnement sandbox est la source principale de ce goulot d'étranglement. Forts de ce constat, nous présentons SandMLE, un framework multi-agents qui génère des environnements synthétiques GML diversifiés et vérifiables à partir d'un petit nombre de tâches de base, préservant la complexité structurelle et technique des problèmes du monde réel tout en limitant les jeux de données à une échelle micro (chaque tâche n'est associée qu'à 50-200 échantillons d'entraînement). Grâce à des expériences poussées, nous montrons que SandMLE réduit le temps d'exécution de plus de 13 fois, permettant pour la première fois dans le domaine du GML un RL *on-policy* trajectoriel à grande échelle. Sur MLE-bench-lite, SandMLE apporte des gains significatifs par rapport aux lignes de base SFT pour les modèles Qwen3-8B, 14B et 30B-A3B, avec des améliorations relatives du taux de médailles comprises entre 20,3 % et 66,9 %. De plus, la politique entraînée généralise à travers des scaffolds agentiques non vus, atteignant un score HumanRank jusqu'à 32,4 % supérieur sur MLE-Dojo.
English
As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.