Автоматизированный бенчмарк для скоростного выполнения LLM: Воспроизведение улучшений NanoGPT
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
June 27, 2025
Авторы: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
cs.AI
Аннотация
Быстрое развитие крупных языковых моделей (LLM) имеет потенциал для содействия научному прогрессу. Ключевой способностью для достижения этой цели является возможность воспроизведения существующих работ. Чтобы оценить способность ИИ-агентов воспроизводить результаты в активной области исследований, мы представляем Automated LLM Speedrunning Benchmark, используя вклад научного сообщества в рамках NanoGPT speedrun — соревнования по обучению модели GPT-2 за минимальное время. Каждая из 19 задач speedrun предоставляет агенту скрипт обучения предыдущих рекордов, опционально дополненный одним из трех форматов подсказок, начиная от псевдокода и заканчивая описаниями, похожими на научные статьи, с улучшениями новых рекордов. Рекорды выполняются быстро по замыслу, а улучшения в speedrun охватывают разнообразные изменения на уровне кода, от высокоуровневых алгоритмических улучшений до оптимизаций с учетом аппаратного обеспечения. Эти особенности делают бенчмарк как доступным, так и реалистичным для передовой задачи улучшения обучения LLM. Мы обнаруживаем, что современные LLM с возможностями рассуждения в сочетании с передовыми структурами (scaffolds) испытывают трудности с повторной реализацией уже известных инноваций в нашем бенчмарке, даже при наличии подробных подсказок. Таким образом, наш бенчмарк предоставляет простую, не насыщенную меру способности LLM автоматизировать научное воспроизведение — необходимый (но не достаточный) навык для автономного исследовательского агента.
English
Rapid advancements in large language models (LLMs) have the potential to
assist in scientific progress. A critical capability toward this endeavor is
the ability to reproduce existing work. To evaluate the ability of AI agents to
reproduce results in an active research area, we introduce the Automated LLM
Speedrunning Benchmark, leveraging the research community contributions on the
NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time.
Each of the 19 speedrun tasks provides the agent with the previous records
training script, optionally paired with one of three hint formats, ranging from
pseudocode to paper-like descriptions of the new records improvements. Records
execute quickly by design and speedrun improvements encompass diverse
code-level changes, ranging from high-level algorithmic advancements to
hardware-aware optimizations. These features make the benchmark both accessible
and realistic for the frontier problem of improving LLM training. We find that
recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement
already-known innovations in our benchmark, even when given detailed hints. Our
benchmark thus provides a simple, non-saturated measure of an LLMs ability to
automate scientific reproduction, a necessary (but not sufficient) skill for an
autonomous research agent.