El Benchmark Automatizado de Speedrunning para LLM: Reproduciendo las Mejoras de NanoGPT
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
June 27, 2025
Autores: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
cs.AI
Resumen
Los rápidos avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen el potencial de contribuir al progreso científico. Una capacidad crítica para este propósito es la habilidad de reproducir trabajos existentes. Para evaluar la capacidad de los agentes de IA para reproducir resultados en un área de investigación activa, presentamos el Benchmark de Speedrunning Automatizado para LLMs, aprovechando las contribuciones de la comunidad de investigación en el speedrun de NanoGPT, una competencia para entrenar un modelo GPT-2 en el menor tiempo posible. Cada una de las 19 tareas del speedrun proporciona al agente el script de entrenamiento de los registros anteriores, opcionalmente acompañado de uno de los tres formatos de pistas, que van desde pseudocódigo hasta descripciones similares a artículos de las mejoras en los nuevos registros. Los registros se ejecutan rápidamente por diseño, y las mejoras en el speedrun abarcan diversos cambios a nivel de código, desde avances algorítmicos de alto nivel hasta optimizaciones conscientes del hardware. Estas características hacen que el benchmark sea tanto accesible como realista para el problema de vanguardia de mejorar el entrenamiento de LLMs. Descubrimos que los LLMs recientes de razonamiento, combinados con andamiajes de última generación, tienen dificultades para reimplementar innovaciones ya conocidas en nuestro benchmark, incluso cuando se les proporcionan pistas detalladas. Por lo tanto, nuestro benchmark ofrece una medida simple y no saturada de la capacidad de un LLM para automatizar la reproducción científica, una habilidad necesaria (pero no suficiente) para un agente de investigación autónomo.
English
Rapid advancements in large language models (LLMs) have the potential to
assist in scientific progress. A critical capability toward this endeavor is
the ability to reproduce existing work. To evaluate the ability of AI agents to
reproduce results in an active research area, we introduce the Automated LLM
Speedrunning Benchmark, leveraging the research community contributions on the
NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time.
Each of the 19 speedrun tasks provides the agent with the previous records
training script, optionally paired with one of three hint formats, ranging from
pseudocode to paper-like descriptions of the new records improvements. Records
execute quickly by design and speedrun improvements encompass diverse
code-level changes, ranging from high-level algorithmic advancements to
hardware-aware optimizations. These features make the benchmark both accessible
and realistic for the frontier problem of improving LLM training. We find that
recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement
already-known innovations in our benchmark, even when given detailed hints. Our
benchmark thus provides a simple, non-saturated measure of an LLMs ability to
automate scientific reproduction, a necessary (but not sufficient) skill for an
autonomous research agent.