Scientifique en IA par mise à l'échelle synthétique des tâches

Résumé

Avec l'avènement des agents IA, la découverte scientifique automatique est devenue un objectif réalisable. De nombreux travaux récents échafaudent des systèmes agentiques capables de réaliser des recherches en apprentissage automatique, mais sans proposer de méthode structurée pour entraîner ces agents – et les LLM actuels génèrent souvent des idées plausibles mais inefficaces. Pour progresser dans l'entraînement d'agents capables d'apprendre par la pratique, nous proposons un nouveau pipeline de génération d'environnements synthétiques ciblant les agents d'apprentissage automatique. Notre pipeline synthétise automatiquement des défis d'apprentissage automatique compatibles avec le framework SWE-agent, couvrant l'échantillonnage de sujets, la proposition de jeux de données et la génération de code. Les tâches synthétiques résultantes sont 1) ancrées dans de vrais jeux de données de ML, car les jeux de données proposés sont vérifiés via l'API Hugging Face, et 2) vérifiées pour une qualité supérieure grâce à une boucle d'auto-débogage. Pour valider l'efficacité de nos tâches synthétiques, nous utilisons MLGym, un benchmark pour les tâches d'apprentissage automatique. À partir des tâches synthétiques, nous échantillonnons des trajectoires depuis un modèle enseignant (GPT-5), puis utilisons ces trajectoires pour entraîner un modèle étudiant (Qwen3-4B et Qwen3-8B). Les modèles étudiants entraînés avec nos tâches synthétiques obtiennent de meilleures performances sur MLGym, augmentant la métrique AUP de 9% pour Qwen3-4B et de 12% pour Qwen3-8B.

English

With the advent of AI agents, automatic scientific discovery has become a tenable goal. Many recent works scaffold agentic systems that can perform machine learning research, but don't offer a principled way to train such agents -- and current LLMs often generate plausible-looking but ineffective ideas. To make progress on training agents that can learn from doing, we provide a novel synthetic environment generation pipeline targeting machine learning agents. Our pipeline automatically synthesizes machine learning challenges compatible with the SWE-agent framework, covering topic sampling, dataset proposal, and code generation. The resulting synthetic tasks are 1) grounded in real machine learning datasets, because the proposed datasets are verified against the Huggingface API and are 2) verified for higher quality with a self-debugging loop. To validate the effectiveness of our synthetic tasks, we tackle MLGym, a benchmark for machine learning tasks. From the synthetic tasks, we sample trajectories from a teacher model (GPT-5), then use the trajectories to train a student model (Qwen3-4B and Qwen3-8B). The student models trained with our synthetic tasks achieve improved performance on MLGym, raising the AUP metric by 9% for Qwen3-4B and 12% for Qwen3-8B.

Scientifique en IA par mise à l'échelle synthétique des tâches

AI Scientist via Synthetic Task Scaling

Résumé

Support