Sandbox Sintetico per l'Addestramento di Agenti di Ingegneria del Machine Learning

Abstract

Mentre gli agenti basati su grandi modelli linguistici progrediscono oltre i compiti di ingegneria del software (SWE) verso l'ingegneria del machine learning (MLE), la verifica del comportamento degli agenti diventa di ordini di grandezza più costosa: mentre i compiti SWE possono essere verificati tramite test unitari a esecuzione rapida, la verifica MLE richiede l'esecuzione di pipeline ML complete - preelaborazione dei dati, addestramento del modello e valutazione delle metriche - su grandi dataset a ogni passo del rollout, rendendo l'apprendimento per rinforzo (RL) on-policy lungo le traiettorie proibitivamente lento. Gli approcci esistenti ripiegano sul fine-tuning supervisionato (SFT) o su ricompense proxy offline, sacrificando i vantaggi di esplorazione e generalizzazione dell'RL on-policy. Osserviamo che la dimensione dei dati nel sandbox è la fonte primaria di questo collo di bottiglia. Basandoci su questa intuizione, introduciamo SandMLE, un framework multi-agente che genera ambienti MLE sintetici, diversificati e verificabili, a partire da un piccolo numero di task iniziali, preservando la complessità strutturale e tecnica dei problemi del mondo reale limitando però i dataset a micro-scala (ogni task è associato a soli 50-200 campioni di addestramento). Tramite esperimenti estesi, dimostriamo che SandMLE riduce il tempo di esecuzione di oltre 13 volte, abilitando per la prima volta nel dominio MLE un RL on-policy su larga scala e lungo le traiettorie. Su MLE-bench-lite, SandMLE produce guadagni significativi rispetto ai baseline SFT su Qwen3-8B, 14B e 30B-A3B, con miglioramenti relativi del tasso di medaglia compresi tra il 20,3% e il 66,9%. Inoltre, la politica addestrata generalizza attraverso scaffold agentistici non visti, raggiungendo fino al 32,4% in più di punteggio HumanRank su MLE-Dojo.

English

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.

Sandbox Sintetico per l'Addestramento di Agenti di Ingegneria del Machine Learning

Synthetic Sandbox for Training Machine Learning Engineering Agents

Abstract

Support