Synthetische Sandbox für das Training von KI-Ingenieursagenten

Zusammenfassung

Da große Sprachmodell-Agenten über Software Engineering (SWE)-Aufgaben hinaus in den Bereich des Machine Learning Engineering (MLE) vordringen, wird die Verifizierung des Agentenverhaltens um ein Vielfaches teurer: Während SWE-Aufgaben durch schnell ausgeführte Unit-Tests verifiziert werden können, erfordert die MLE-Verifizierung das Ausführen vollständiger ML-Pipelines – Datenvorverarbeitung, Modelltraining und Metrikauswertung – auf großen Datensätzen bei jedem Rollout-Schritt, was trajectory-weises Reinforcement Learning (RL) on-policy praktisch undurchführbar langsam macht. Bestehende Ansätze weichen auf Supervised Fine-Tuning (SFT) oder Offline-Proxy-Rewards aus und opfern damit die Explorations- und Generalisierungsvorteile von On-Policy-RL. Wir beobachten, dass die Größe der Sandbox-Daten die Hauptursache für diesen Engpass ist. Aufbauend auf dieser Erkenntnis führen wir SandMLE ein, ein Multi-Agenten-Framework, das aus einer kleinen Anzahl von Seed-Aufgaben diverse, verifizierbare synthetische MLE-Umgebungen generiert. Dies bewahrt die strukturelle und technische Komplexität realer Probleme, beschränkt die Datensätze jedoch auf Mikro-Maßstab (jede Aufgabe ist mit nur 50-200 Trainingsbeispielen gepaart). Umfangreiche Experimente zeigen, dass SandMLE die Ausführungszeit um mehr als das 13-fache reduziert und damit erstmals trajectory-weises On-Policy-RL im großen Maßstab im MLE-Bereich ermöglicht. Auf MLE-bench-lite erzielt SandMLE signifikante Verbesserungen gegenüber SFT-Baselines über Qwen3-8B, 14B und 30B-A3B hinweg, mit relativen Verbesserungen der Medal-Rate zwischen 20,3 % und 66,9 %. Darüber hinaus generalisiert die trainierte Policy über ungesehene agentische Scaffolds hinweg und erreicht auf MLE-Dojo eine bis zu 32,4 % bessere HumanRank-Bewertung.

English

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.

Synthetische Sandbox für das Training von KI-Ingenieursagenten

Synthetic Sandbox for Training Machine Learning Engineering Agents

Zusammenfassung

Support