Científico de IA mediante Escalado de Tareas Sintéticas

Resumen

Con la llegada de los agentes de IA, el descubrimiento científico automático se ha convertido en un objetivo alcanzable. Muchos trabajos recientes estructuran sistemas agentes que pueden realizar investigación en aprendizaje automático, pero no ofrecen una forma sistemática de entrenar a dichos agentes, y los LLM actuales a menudo generan ideas que parecen plausibles pero son ineficaces. Para avanzar en el entrenamiento de agentes que puedan aprender haciendo, proporcionamos una novedosa pipeline de generación de entornos sintéticos dirigida a agentes de aprendizaje automático. Nuestra pipeline sintetiza automáticamente desafíos de aprendizaje automático compatibles con el framework SWE-agent, abarcando el muestreo de temas, la propuesta de conjuntos de datos y la generación de código. Las tareas sintéticas resultantes están 1) basadas en conjuntos de datos reales de aprendizaje automático, ya que los conjuntos de datos propuestos se verifican contra la API de Huggingface, y 2) verificadas para una mayor calidad mediante un bucle de auto-depuración. Para validar la efectividad de nuestras tareas sintéticas, abordamos MLGym, un benchmark para tareas de aprendizaje automático. A partir de las tareas sintéticas, muestreamos trayectorias de un modelo profesor (GPT-5) y luego utilizamos las trayectorias para entrenar un modelo estudiante (Qwen3-4B y Qwen3-8B). Los modelos estudiantes entrenados con nuestras tareas sintéticas logran un rendimiento mejorado en MLGym, incrementando la métrica AUP en un 9% para Qwen3-4B y en un 12% para Qwen3-8B.

English

With the advent of AI agents, automatic scientific discovery has become a tenable goal. Many recent works scaffold agentic systems that can perform machine learning research, but don't offer a principled way to train such agents -- and current LLMs often generate plausible-looking but ineffective ideas. To make progress on training agents that can learn from doing, we provide a novel synthetic environment generation pipeline targeting machine learning agents. Our pipeline automatically synthesizes machine learning challenges compatible with the SWE-agent framework, covering topic sampling, dataset proposal, and code generation. The resulting synthetic tasks are 1) grounded in real machine learning datasets, because the proposed datasets are verified against the Huggingface API and are 2) verified for higher quality with a self-debugging loop. To validate the effectiveness of our synthetic tasks, we tackle MLGym, a benchmark for machine learning tasks. From the synthetic tasks, we sample trajectories from a teacher model (GPT-5), then use the trajectories to train a student model (Qwen3-4B and Qwen3-8B). The student models trained with our synthetic tasks achieve improved performance on MLGym, raising the AUP metric by 9% for Qwen3-4B and 12% for Qwen3-8B.

Científico de IA mediante Escalado de Tareas Sintéticas

AI Scientist via Synthetic Task Scaling

Resumen

Support