De geautomatiseerde LLM Speedrunning Benchmark: Reproductie van NanoGPT Verbeteringen
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
June 27, 2025
Auteurs: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
cs.AI
Samenvatting
Snelle vooruitgang in grote taalmodellen (LLMs) heeft het potentieel om wetenschappelijke vooruitgang te ondersteunen. Een cruciale vaardigheid voor dit streven is het vermogen om bestaand werk te reproduceren. Om het vermogen van AI-agents om resultaten te reproduceren in een actief onderzoeksgebied te evalueren, introduceren we de Automated LLM Speedrunning Benchmark, waarbij we gebruikmaken van de bijdragen van de onderzoeksgemeenschap aan de NanoGPT-speedrun, een wedstrijd om een GPT-2-model in de kortst mogelijke tijd te trainen. Elk van de 19 speedrun-taken voorziet de agent van het trainingsscript van de vorige records, optioneel aangevuld met een van drie hintformats, variërend van pseudocode tot paper-achtige beschrijvingen van de verbeteringen in de nieuwe records. Records zijn ontworpen om snel uit te voeren, en speedrun-verbeteringen omvatten diverse code-niveau wijzigingen, van hoogwaardige algoritmische vooruitgang tot hardwarebewuste optimalisaties. Deze kenmerken maken de benchmark zowel toegankelijk als realistisch voor het grensverleggende probleem van het verbeteren van LLM-training. We constateren dat recente redenerende LLMs in combinatie met state-of-the-art scaffolds moeite hebben om reeds bekende innovaties in onze benchmark opnieuw te implementeren, zelfs wanneer gedetailleerde hints worden gegeven. Onze benchmark biedt dus een eenvoudige, niet-verzadigde maatstaf voor het vermogen van LLMs om wetenschappelijke reproductie te automatiseren, een noodzakelijke (maar niet voldoende) vaardigheid voor een autonome onderzoeksagent.
English
Rapid advancements in large language models (LLMs) have the potential to
assist in scientific progress. A critical capability toward this endeavor is
the ability to reproduce existing work. To evaluate the ability of AI agents to
reproduce results in an active research area, we introduce the Automated LLM
Speedrunning Benchmark, leveraging the research community contributions on the
NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time.
Each of the 19 speedrun tasks provides the agent with the previous records
training script, optionally paired with one of three hint formats, ranging from
pseudocode to paper-like descriptions of the new records improvements. Records
execute quickly by design and speedrun improvements encompass diverse
code-level changes, ranging from high-level algorithmic advancements to
hardware-aware optimizations. These features make the benchmark both accessible
and realistic for the frontier problem of improving LLM training. We find that
recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement
already-known innovations in our benchmark, even when given detailed hints. Our
benchmark thus provides a simple, non-saturated measure of an LLMs ability to
automate scientific reproduction, a necessary (but not sufficient) skill for an
autonomous research agent.