Synthetische Zandbak voor het Opleiden van Machine Learning Engineering Agents

Samenvatting

Naarmate grote taalmodelagenten zich ontwikkelen van software engineering (SWE) taken naar machine learning engineering (MLE), wordt het verifiëren van agentgedrag exponentieel duurder: waar SWE-taken geverifieerd kunnen worden via sneluitvoerende unittests, vereist MLE-verificatie het draaien van volledige ML-pipelines – gegevensvoorverwerking, modeltraining en metriekevaluatie – op grote datasets bij elke rollout-stap, waardoor trajectory-wise on-policy reinforcement learning (RL) onhaalbaar traag wordt. Bestaande benaderingen wijken uit naar supervised fine-tuning (SFT) of offline proxy-beloningen, wat ten koste gaat van de exploratie- en generalisatievoordelen van on-policy RL. Wij observeren dat de omvang van de sandboxgegevens de primaire bron van dit knelpunt is. Gebaseerd op dit inzicht introduceren wij SandMLE, een multi-agent framework dat diverse, verifieerbare synthetische MLE-omgevingen genereert vanuit een klein aantal seedtaken. Dit behoudt de structurele en technische complexiteit van real-world problemen, maar beperkt de datasets tot micro-schaal (elke taak wordt gekoppeld aan slechts 50-200 trainingsvoorbeelden). Door middel van uitgebreide experimenten tonen wij aan dat SandMLE de uitvoeringstijd met meer dan 13 keer reduceert, waardoor voor het eerst grootschalige, trajectory-wise on-policy RL in het MLE-domein mogelijk wordt. Op MLE-bench-lite behaalt SandMLE significante verbeteringen ten opzichte van SFT-baselines voor Qwen3-8B, 14B en 30B-A3B, met relatieve verbeteringen in de medaillescore variërend van 20,3% tot 66,9%. Bovendien generaliseert het getrainde beleid over onzichtbare agent-scaffolds heen en behaalt het tot 32,4% betere HumanRank-scores op MLE-Dojo.

English

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.

Synthetische Zandbak voor het Opleiden van Machine Learning Engineering Agents

Synthetic Sandbox for Training Machine Learning Engineering Agents

Samenvatting

Support