KI-Wissenschaftler durch Skalierung synthetischer Aufgaben

Zusammenfassung

Mit dem Aufkommen von KI-Agenten ist die automatische wissenschaftliche Entdeckung zu einem erreichbaren Ziel geworden. Zahlreiche aktuelle Arbeiten entwickeln agentenbasierte Systeme, die maschinelles Lernen erforschen können, bieten aber keine prinzipielle Methode zum Training solcher Agenten – und aktuelle LLMs generieren oft plausibel wirkende, aber ineffektive Ideen. Um Fortschritte beim Training von Agenten zu erzielen, die durch praktische Erfahrung lernen können, stellen wir eine neuartige Pipeline zur Generierung synthetischer Umgebungen für maschinelle Lernagenten vor. Unsere Pipeline synthetisiert automatisch maschinelle Lernherausforderungen, die mit dem SWE-Agent-Framework kompatibel sind, und deckt Themenabtastung, Datensatzvorschlag und Codegenerierung ab. Die resultierenden synthetischen Aufgaben sind 1) in realen Datensätzen des maschinellen Lernens verankert, da die vorgeschlagenen Datensätze gegen die Huggingface-API verifiziert werden, und 2) durch eine Selbstdebugging-Schleife auf höhere Qualität überprüft. Um die Wirksamkeit unserer synthetischen Aufgaben zu validieren, verwenden wir MLGym, einen Benchmark für maschinelle Lernaufgaben. Aus den synthetischen Aufgaben stichproben wir Trajektorien eines Lehrermodells (GPT-5) und nutzen diese Trajektorien zum Training eines Schülermodells (Qwen3-4B und Qwen3-8B). Die mit unseren synthetischen Aufgaben trainierten Schülermodelle erzielen eine verbesserte Leistung in MLGym und steigern die AUP-Metrik um 9 % für Qwen3-4B und 12 % für Qwen3-8B.

English

With the advent of AI agents, automatic scientific discovery has become a tenable goal. Many recent works scaffold agentic systems that can perform machine learning research, but don't offer a principled way to train such agents -- and current LLMs often generate plausible-looking but ineffective ideas. To make progress on training agents that can learn from doing, we provide a novel synthetic environment generation pipeline targeting machine learning agents. Our pipeline automatically synthesizes machine learning challenges compatible with the SWE-agent framework, covering topic sampling, dataset proposal, and code generation. The resulting synthetic tasks are 1) grounded in real machine learning datasets, because the proposed datasets are verified against the Huggingface API and are 2) verified for higher quality with a self-debugging loop. To validate the effectiveness of our synthetic tasks, we tackle MLGym, a benchmark for machine learning tasks. From the synthetic tasks, we sample trajectories from a teacher model (GPT-5), then use the trajectories to train a student model (Qwen3-4B and Qwen3-8B). The student models trained with our synthetic tasks achieve improved performance on MLGym, raising the AUP metric by 9% for Qwen3-4B and 12% for Qwen3-8B.

KI-Wissenschaftler durch Skalierung synthetischer Aufgaben

AI Scientist via Synthetic Task Scaling

Zusammenfassung

Support