Entorno de Pruebas Sintético para el Entrenamiento de Agentes de Ingeniería de Aprendizaje Automático

Resumen

A medida que los agentes de modelos de lenguaje grande avanzan más allá de las tareas de ingeniería de software (SWE) hacia la ingeniería de aprendizaje automático (MLE), la verificación del comportamiento de los agentes se vuelve órdenes de magnitud más costosa: mientras que las tareas SWE pueden verificarse mediante pruebas unitarias de ejecución rápida, la verificación MLE requiere ejecutar pipelines completos de ML —preprocesamiento de datos, entrenamiento del modelo y evaluación de métricas— en grandes conjuntos de datos en cada paso del despliegue, lo que hace prohibitivamente lento el aprendizaje por refuerzo (RL) *on-policy* a lo largo de las trayectorias. Los enfoques existentes retroceden al ajuste fino supervisado (SFT) o a recompensas proxy obtenidas de forma *offline*, sacrificando los beneficios de exploración y generalización del RL *on-policy*. Observamos que el tamaño de los datos del *sandbox* es la fuente principal de este cuello de botella. Basándonos en esta idea, presentamos SandMLE, un marco multiagente que genera entornos MLE sintéticos, diversos y verificables, a partir de un pequeño número de tareas semilla, preservando la complejidad estructural y técnica de los problemas del mundo real mientras restringe los conjuntos de datos a una microescala (cada tarea se empareja con solo 50-200 muestras de entrenamiento). A través de experimentos exhaustivos, mostramos que SandMLE reduce el tiempo de ejecución en más de 13 veces, permitiendo por primera vez en el dominio MLE un RL *on-policy* a gran escala y a lo largo de trayectorias. En MLE-bench-lite, SandMLE produce ganancias significativas sobre las líneas base de SFT en los modelos Qwen3-8B, 14B y 30B-A3B, con mejoras relativas en la tasa de medalla que van del 20.3% al 66.9%. Además, la política entrenada generaliza a través de *scaffolds* agenticos no vistos, logrando hasta un 32.4% mejor puntuación HumanRank en MLE-Dojo.

English

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.

Entorno de Pruebas Sintético para el Entrenamiento de Agentes de Ingeniería de Aprendizaje Automático

Synthetic Sandbox for Training Machine Learning Engineering Agents

Resumen

Support