RExBench: Gli agenti di programmazione possono implementare autonomamente estensioni della ricerca in IA?
RExBench: Can coding agents autonomously implement AI research extensions?
June 27, 2025
Autori: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI
Abstract
Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato potenziale nell'eseguire in modo autonomo compiti avanzati di ingegneria del software. Inoltre, sono stati compiuti progressi nello sviluppo di agenti in grado di svolgere parti del processo di ricerca nell'apprendimento automatico e nelle scienze naturali. Sosteniamo che l'estensione della ricerca e la sua implementazione rappresentino una capacità cruciale per tali sistemi e introduciamo RExBench per supportare la valutazione di questa capacità. RExBench è un benchmark composto da 12 task realistici di implementazione di esperimenti di ricerca, progettati per indagare ipotesi di ricerca non precedentemente implementate. Ogni task è configurato come un'estensione di un articolo di ricerca e di una codebase esistenti, accompagnati da istruzioni scritte da esperti del dominio. RExBench è robusto alla contaminazione dei dati e supporta un'infrastruttura di valutazione automatica che esegue gli output degli agenti per determinare se i criteri di successo sono soddisfatti. Utilizziamo questo benchmark per valutare nove agenti LLM implementati utilizzando tre framework diversi: aider, Claude Code e OpenHands. Rileviamo che tutti gli agenti valutati non riescono a implementare autonomamente la maggior parte delle estensioni. Sebbene il tasso di successo migliori con l'aggiunta di suggerimenti scritti da esseri umani, la migliore prestazione in questo contesto rimane inferiore al 40%. Ciò indica che gli agenti attuali non sono ancora in grado di gestire task realistici di estensione della ricerca senza un sostanziale intervento umano.
English
Agents based on Large Language Models (LLMs) have shown promise for
performing sophisticated software engineering tasks autonomously. In addition,
there has been progress towards developing agents that can perform parts of the
research pipeline in machine learning and the natural sciences. We argue that
research extension and its implementation is a critical capability for such
systems, and introduce RExBench to support the evaluation of this capability.
RExBench is a benchmark consisting of 12 realistic research experiment
implementation tasks that aim to investigate research hypotheses that have not
previously been implemented. Each task is set up as an extension to an existing
research paper and codebase, accompanied by domain expert-written instructions.
RExBench is robust to data contamination, and supports an automatic evaluation
infrastructure that executes agent outputs to determine whether the success
criteria are met. We use this benchmark to evaluate nine LLM agents implemented
using three different frameworks: aider, Claude Code, and OpenHands. We find
that all agents evaluated fail to autonomously implement the majority of the
extensions. Although the success rate improves with additional human-written
hints, the best performance under this setting remains below 40%. This
indicates that current agents are still short of being able to handle realistic
research extension tasks without substantial human guidance.