Caixa de Areia Sintética para Treinamento de Agentes de Engenharia de Aprendizado de Máquina
Synthetic Sandbox for Training Machine Learning Engineering Agents
April 6, 2026
Autores: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao, Hong Yan
cs.AI
Resumo
À medida que os agentes de modelos de linguagem avançam além das tarefas de engenharia de software (SWE) em direção à engenharia de aprendizagem automática (MLE), a verificação do comportamento do agente torna-se ordens de magnitude mais cara: enquanto as tarefas de SWE podem ser verificadas através de testes unitários de execução rápida, a verificação de MLE exige a execução de *pipelines* completos de ML — pré-processamento de dados, treinamento do modelo e avaliação de métricas — em grandes conjuntos de dados a cada etapa de implantação, tornando o aprendizado por reforço (RL) *on-policy* ao longo da trajetória proibitivamente lento. As abordagens existentes recuam para o ajuste fino supervisionado (SFT) ou recompensas *proxy* offline, sacrificando os benefícios de exploração e generalização do RL *on-policy*. Observamos que o tamanho dos dados do *sandbox* é a principal fonte deste gargalo. Com base nesta perceção, introduzimos o SandMLE, uma arquitetura multiagente que gera ambientes sintéticos de MLE diversos e verificáveis a partir de um pequeno número de tarefas iniciais, preservando a complexidade estrutural e técnica dos problemas do mundo real, mas restringindo os conjuntos de dados à microescala (cada tarefa é emparelhada com apenas 50 a 200 amostras de treino). Através de experiências extensivas, mostramos que o SandMLE reduz o tempo de execução em mais de 13 vezes, permitindo pela primeira vez no domínio do MLE o RL *on-policy* em larga escala e ao longo da trajetória. No MLE-bench-lite, o SandMLE produz ganhos significativos face às linhas de base de SFT nos modelos Qwen3-8B, 14B e 30B-A3B, com melhorias relativas na taxa de medalha variando entre 20,3% e 66,9%. Além disso, a política treinada generaliza-se através de *scaffolds* agenticos não vistos, alcançando uma pontuação HumanRank até 32,4% superior no MLE-Dojo.
English
As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.