ChatPaper.aiChatPaper

Il Benchmark di Speedrunning Automatico per LLM: Riproduzione di NanoGPT Miglioramenti

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

June 27, 2025
Autori: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
cs.AI

Abstract

I rapidi progressi nei grandi modelli linguistici (LLM) hanno il potenziale di contribuire al progresso scientifico. Una capacità cruciale per questo obiettivo è la possibilità di riprodurre lavori esistenti. Per valutare l'abilità degli agenti di intelligenza artificiale nel riprodurre i risultati in un'area di ricerca attiva, introduciamo il benchmark Automated LLM Speedrunning, sfruttando i contributi della comunità di ricerca sul NanoGPT speedrun, una competizione per addestrare un modello GPT-2 nel minor tempo possibile. Ciascuno dei 19 task di speedrun fornisce all'agente lo script di addestramento dei record precedenti, eventualmente abbinato a uno dei tre formati di suggerimento, che vanno da pseudocodici a descrizioni simili a quelle di articoli scientifici sui miglioramenti dei nuovi record. I record sono progettati per essere eseguiti rapidamente e i miglioramenti negli speedrun comprendono una vasta gamma di modifiche a livello di codice, che vanno da avanzamenti algoritmici di alto livello a ottimizzazioni specifiche per l'hardware. Queste caratteristiche rendono il benchmark sia accessibile che realistico per il problema di frontiera del miglioramento dell'addestramento degli LLM. Scopriamo che i recenti LLM dotati di capacità di ragionamento, combinati con impalcature all'avanguardia, faticano a reimplementare innovazioni già note nel nostro benchmark, anche quando vengono forniti suggerimenti dettagliati. Il nostro benchmark fornisce quindi una misura semplice e non satura dell'abilità degli LLM di automatizzare la riproduzione scientifica, una competenza necessaria (ma non sufficiente) per un agente di ricerca autonomo.
English
Rapid advancements in large language models (LLMs) have the potential to assist in scientific progress. A critical capability toward this endeavor is the ability to reproduce existing work. To evaluate the ability of AI agents to reproduce results in an active research area, we introduce the Automated LLM Speedrunning Benchmark, leveraging the research community contributions on the NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time. Each of the 19 speedrun tasks provides the agent with the previous records training script, optionally paired with one of three hint formats, ranging from pseudocode to paper-like descriptions of the new records improvements. Records execute quickly by design and speedrun improvements encompass diverse code-level changes, ranging from high-level algorithmic advancements to hardware-aware optimizations. These features make the benchmark both accessible and realistic for the frontier problem of improving LLM training. We find that recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement already-known innovations in our benchmark, even when given detailed hints. Our benchmark thus provides a simple, non-saturated measure of an LLMs ability to automate scientific reproduction, a necessary (but not sufficient) skill for an autonomous research agent.
PDF101June 30, 2025