AI-wetenschapper via schaalvergroting van synthetische taken
AI Scientist via Synthetic Task Scaling
March 17, 2026
Auteurs: Ziyang Cai, Harkirat Behl
cs.AI
Samenvatting
Met de opkomst van AI-agenten is automatische wetenschappelijke ontdekking een haalbaar doel geworden. Veel recente werken bouwen agent-systemen die machinaal leren-onderzoek kunnen uitvoeren, maar bieden geen principiële manier om dergelijke agenten te trainen – en huidige LLM's genereren vaak plausibel ogende maar inefficiënte ideeën. Om vooruitgang te boeken in het trainen van agenten die kunnen leren door te doen, presenteren we een nieuwe pijplijn voor het genereren van synthetische omgevingen, gericht op machine learning-agenten. Onze pijplijn synthetiseert automatisch machine learning-uitdagingen die compatibel zijn met het SWE-agentframework, waarbij onderwerpselectie, datasetvoorstel en codegeneratie worden afgedekt. De resulterende synthetische taken zijn 1) gegrond in echte machine learning-datasets, omdat de voorgestelde datasets worden geverifieerd tegen de Huggingface-API, en 2) gecontroleerd op hogere kwaliteit met een zelf-debuglus. Om de effectiviteit van onze synthetische taken te valideren, pakken we MLGym aan, een benchmark voor machine learning-taken. Uit de synthetische taken nemen we trajecten van een leraarmodel (GPT-5), en gebruiken deze trajecten om een studentmodel (Qwen3-4B en Qwen3-8B) te trainen. De studentmodellen getraind met onze synthetische taken behalen verbeterde prestaties op MLGym, waarbij de AUP-metriek met 9% stijgt voor Qwen3-4B en met 12% voor Qwen3-8B.
English
With the advent of AI agents, automatic scientific discovery has become a tenable goal. Many recent works scaffold agentic systems that can perform machine learning research, but don't offer a principled way to train such agents -- and current LLMs often generate plausible-looking but ineffective ideas. To make progress on training agents that can learn from doing, we provide a novel synthetic environment generation pipeline targeting machine learning agents. Our pipeline automatically synthesizes machine learning challenges compatible with the SWE-agent framework, covering topic sampling, dataset proposal, and code generation. The resulting synthetic tasks are 1) grounded in real machine learning datasets, because the proposed datasets are verified against the Huggingface API and are 2) verified for higher quality with a self-debugging loop. To validate the effectiveness of our synthetic tasks, we tackle MLGym, a benchmark for machine learning tasks. From the synthetic tasks, we sample trajectories from a teacher model (GPT-5), then use the trajectories to train a student model (Qwen3-4B and Qwen3-8B). The student models trained with our synthetic tasks achieve improved performance on MLGym, raising the AUP metric by 9% for Qwen3-4B and 12% for Qwen3-8B.