ChatPaper.aiChatPaper

자동화된 LLM 스피드런 벤치마크: NanoGPT 개선 사항 재현

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

June 27, 2025
저자: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
cs.AI

초록

대규모 언어 모델(LLM)의 급속한 발전은 과학적 진보를 지원할 잠재력을 가지고 있습니다. 이러한 목표를 향한 중요한 능력은 기존 연구를 재현할 수 있는 능력입니다. 활발한 연구 분야에서 AI 에이전트가 결과를 재현할 수 있는 능력을 평가하기 위해, 우리는 NanoGPT 스피드런(가장 짧은 시간 내에 GPT-2 모델을 학습시키는 경쟁)에 대한 연구 커뮤니티의 기여를 활용한 자동화된 LLM 스피드런 벤치마크를 소개합니다. 19개의 스피드런 작업 각각은 에이전트에게 이전 기록의 학습 스크립트를 제공하며, 선택적으로 의사코드에서부터 새로운 기록의 개선 사항에 대한 논문과 같은 설명까지 세 가지 힌트 형식 중 하나와 함께 제공됩니다. 기록은 설계상 빠르게 실행되며, 스피드런 개선 사항은 고수준 알고리즘 발전부터 하드웨어 인식 최적화에 이르기까지 다양한 코드 수준의 변경을 포함합니다. 이러한 특징들은 LLM 학습 개선이라는 최전선 문제에 대해 벤치마크를 접근 가능하고 현실적으로 만듭니다. 우리는 최근의 추론 LLM과 최첨단 스캐폴드를 결합하더라도 상세한 힌트가 주어졌을 때조차 우리 벤치마크에서 이미 알려진 혁신을 재구현하는 데 어려움을 겪는다는 것을 발견했습니다. 따라서 우리의 벤치마크는 자율 연구 에이전트에게 필수적이지만 충분하지는 않은 과학적 재현 자동화 능력을 측정하는 간단하고 포화되지 않은 척도를 제공합니다.
English
Rapid advancements in large language models (LLMs) have the potential to assist in scientific progress. A critical capability toward this endeavor is the ability to reproduce existing work. To evaluate the ability of AI agents to reproduce results in an active research area, we introduce the Automated LLM Speedrunning Benchmark, leveraging the research community contributions on the NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time. Each of the 19 speedrun tasks provides the agent with the previous records training script, optionally paired with one of three hint formats, ranging from pseudocode to paper-like descriptions of the new records improvements. Records execute quickly by design and speedrun improvements encompass diverse code-level changes, ranging from high-level algorithmic advancements to hardware-aware optimizations. These features make the benchmark both accessible and realistic for the frontier problem of improving LLM training. We find that recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement already-known innovations in our benchmark, even when given detailed hints. Our benchmark thus provides a simple, non-saturated measure of an LLMs ability to automate scientific reproduction, a necessary (but not sufficient) skill for an autonomous research agent.
PDF91June 30, 2025