Cientista de IA via Escalonamento Sintético de Tarefas

Resumo

Com o advento dos agentes de IA, a descoberta científica automática tornou-se um objetivo viável. Muitos trabalhos recentes estruturam sistemas agentes capazes de realizar pesquisas em aprendizado de máquina, mas não oferecem uma forma fundamentada de treinar tais agentes — e os LLMs atuais frequentemente geram ideias com aparência plausível, porém ineficazes. Para avançar no treinamento de agentes que possam aprender fazendo, fornecemos um pipeline inédito de geração de ambientes sintéticos direcionado a agentes de aprendizado de máquina. Nosso pipeline sintetiza automaticamente desafios de aprendizado de máquina compatíveis com a estrutura do SWE-agent, abrangendo amostragem de tópicos, proposta de conjuntos de dados e geração de código. As tarefas sintéticas resultantes são 1) fundamentadas em conjuntos de dados reais de aprendizado de máquina, pois os conjuntos de dados propostos são verificados contra a API do Huggingface, e 2) verificadas para maior qualidade com um loop de autodepuração. Para validar a eficácia de nossas tarefas sintéticas, abordamos o MLGym, um benchmark para tarefas de aprendizado de máquina. A partir das tarefas sintéticas, amostramos trajetórias de um modelo professor (GPT-5) e, em seguida, usamos as trajetórias para treinar um modelo estudante (Qwen3-4B e Qwen3-8B). Os modelos estudantes treinados com nossas tarefas sintéticas alcançam desempenho melhorado no MLGym, elevando a métrica AUP em 9% para o Qwen3-4B e 12% para o Qwen3-8B.

English

With the advent of AI agents, automatic scientific discovery has become a tenable goal. Many recent works scaffold agentic systems that can perform machine learning research, but don't offer a principled way to train such agents -- and current LLMs often generate plausible-looking but ineffective ideas. To make progress on training agents that can learn from doing, we provide a novel synthetic environment generation pipeline targeting machine learning agents. Our pipeline automatically synthesizes machine learning challenges compatible with the SWE-agent framework, covering topic sampling, dataset proposal, and code generation. The resulting synthetic tasks are 1) grounded in real machine learning datasets, because the proposed datasets are verified against the Huggingface API and are 2) verified for higher quality with a self-debugging loop. To validate the effectiveness of our synthetic tasks, we tackle MLGym, a benchmark for machine learning tasks. From the synthetic tasks, we sample trajectories from a teacher model (GPT-5), then use the trajectories to train a student model (Qwen3-4B and Qwen3-8B). The student models trained with our synthetic tasks achieve improved performance on MLGym, raising the AUP metric by 9% for Qwen3-4B and 12% for Qwen3-8B.

Cientista de IA via Escalonamento Sintético de Tarefas

AI Scientist via Synthetic Task Scaling

Resumo

Support