Der Automatisierte LLM-Speedrunning-Benchmark: Reproduktion der NanoGPT-Verbesserungen
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
June 27, 2025
Autoren: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
cs.AI
Zusammenfassung
Rasante Fortschritte bei großen Sprachmodellen (LLMs) haben das Potenzial, den wissenschaftlichen Fortschritt zu unterstützen. Eine entscheidende Fähigkeit in diesem Bestreben ist die Möglichkeit, bestehende Arbeiten zu reproduzieren. Um die Fähigkeit von KI-Agenten zur Reproduktion von Ergebnissen in einem aktiven Forschungsgebiet zu bewerten, führen wir den Automated LLM Speedrunning Benchmark ein, der die Beiträge der Forschungsgemeinschaft zum NanoGPT-Speedrun nutzt, einem Wettbewerb zur schnellsten Trainingszeit eines GPT-2-Modells. Jede der 19 Speedrun-Aufgaben stellt dem Agenten das Trainingsskript der bisherigen Rekorde zur Verfügung, optional ergänzt durch eines von drei Hinweisformaten, die von Pseudocode bis zu papierähnlichen Beschreibungen der Verbesserungen der neuen Rekorde reichen. Die Rekorde sind von Natur aus schnell ausführbar, und die Speedrun-Verbesserungen umfassen diverse Code-Änderungen, die von hochrangigen algorithmischen Fortschritten bis zu hardwarebewussten Optimierungen reichen. Diese Merkmale machen das Benchmark sowohl zugänglich als auch realistisch für das Grenzproblem der Verbesserung des LLM-Trainings. Wir stellen fest, dass aktuelle reasoning LLMs in Kombination mit State-of-the-Art-Gerüsten Schwierigkeiten haben, bereits bekannte Innovationen in unserem Benchmark neu zu implementieren, selbst wenn detaillierte Hinweise gegeben werden. Unser Benchmark bietet somit ein einfaches, nicht gesättigtes Maß für die Fähigkeit eines LLMs, die wissenschaftliche Reproduktion zu automatisieren, eine notwendige (aber nicht hinreichende) Fähigkeit für einen autonomen Forschungsagenten.
English
Rapid advancements in large language models (LLMs) have the potential to
assist in scientific progress. A critical capability toward this endeavor is
the ability to reproduce existing work. To evaluate the ability of AI agents to
reproduce results in an active research area, we introduce the Automated LLM
Speedrunning Benchmark, leveraging the research community contributions on the
NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time.
Each of the 19 speedrun tasks provides the agent with the previous records
training script, optionally paired with one of three hint formats, ranging from
pseudocode to paper-like descriptions of the new records improvements. Records
execute quickly by design and speedrun improvements encompass diverse
code-level changes, ranging from high-level algorithmic advancements to
hardware-aware optimizations. These features make the benchmark both accessible
and realistic for the frontier problem of improving LLM training. We find that
recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement
already-known innovations in our benchmark, even when given detailed hints. Our
benchmark thus provides a simple, non-saturated measure of an LLMs ability to
automate scientific reproduction, a necessary (but not sufficient) skill for an
autonomous research agent.