O Benchmark Automatizado de Speedrunning para LLMs: Reproduzindo Melhorias do NanoGPT
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
June 27, 2025
Autores: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
cs.AI
Resumo
Os rápidos avanços nos grandes modelos de linguagem (LLMs) têm o potencial de auxiliar no progresso científico. Uma capacidade crucial para esse objetivo é a habilidade de reproduzir trabalhos existentes. Para avaliar a capacidade de agentes de IA em reproduzir resultados em uma área de pesquisa ativa, introduzimos o Benchmark de Speedrunning Automatizado de LLMs, aproveitando as contribuições da comunidade de pesquisa no NanoGPT speedrun, uma competição para treinar um modelo GPT-2 no menor tempo possível. Cada uma das 19 tarefas de speedrun fornece ao agente o script de treinamento dos recordes anteriores, opcionalmente acompanhado por um dos três formatos de dicas, variando de pseudocódigo a descrições semelhantes a artigos das melhorias nos novos recordes. Os recordes são executados rapidamente por design, e as melhorias no speedrun abrangem diversas alterações no nível de código, desde avanços algorítmicos de alto nível até otimizações conscientes do hardware. Essas características tornam o benchmark acessível e realista para o problema de ponta de melhorar o treinamento de LLMs. Descobrimos que os LLMs recentes de raciocínio, combinados com estruturas de suporte de última geração, têm dificuldade em reimplementar inovações já conhecidas em nosso benchmark, mesmo quando recebem dicas detalhadas. Nosso benchmark, portanto, fornece uma medida simples e não saturada da capacidade de um LLM em automatizar a reprodução científica, uma habilidade necessária (mas não suficiente) para um agente de pesquisa autônomo.
English
Rapid advancements in large language models (LLMs) have the potential to
assist in scientific progress. A critical capability toward this endeavor is
the ability to reproduce existing work. To evaluate the ability of AI agents to
reproduce results in an active research area, we introduce the Automated LLM
Speedrunning Benchmark, leveraging the research community contributions on the
NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time.
Each of the 19 speedrun tasks provides the agent with the previous records
training script, optionally paired with one of three hint formats, ranging from
pseudocode to paper-like descriptions of the new records improvements. Records
execute quickly by design and speedrun improvements encompass diverse
code-level changes, ranging from high-level algorithmic advancements to
hardware-aware optimizations. These features make the benchmark both accessible
and realistic for the frontier problem of improving LLM training. We find that
recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement
already-known innovations in our benchmark, even when given detailed hints. Our
benchmark thus provides a simple, non-saturated measure of an LLMs ability to
automate scientific reproduction, a necessary (but not sufficient) skill for an
autonomous research agent.