RExBench: Können programmierende Agenten eigenständig KI-Forschungserweiterungen implementieren?

Zusammenfassung

Agenten, die auf Large Language Models (LLMs) basieren, haben vielversprechende Ansätze gezeigt, um anspruchsvolle Softwareentwicklungsaufgaben autonom auszuführen. Darüber hinaus gab es Fortschritte bei der Entwicklung von Agenten, die Teile des Forschungsprozesses im Bereich des maschinellen Lernens und der Naturwissenschaften übernehmen können. Wir argumentieren, dass die Erweiterung von Forschung und deren Implementierung eine entscheidende Fähigkeit für solche Systeme darstellt, und stellen RExBench vor, um die Bewertung dieser Fähigkeit zu unterstützen. RExBench ist ein Benchmark, der aus 12 realistischen Aufgaben zur Implementierung von Forschungsexperimenten besteht, die darauf abzielen, Forschungshypothesen zu untersuchen, die bisher nicht implementiert wurden. Jede Aufgabe ist als Erweiterung zu einem bestehenden Forschungsartikel und Codebase konzipiert und wird von Anweisungen begleitet, die von Domänenexperten verfasst wurden. RExBench ist robust gegenüber Datenkontamination und unterstützt eine automatische Evaluierungsinfrastruktur, die die Ausgaben der Agenten ausführt, um festzustellen, ob die Erfolgskriterien erfüllt sind. Wir verwenden diesen Benchmark, um neun LLM-Agenten zu bewerten, die mit drei verschiedenen Frameworks implementiert wurden: aider, Claude Code und OpenHands. Wir stellen fest, dass alle bewerteten Agenten die Mehrheit der Erweiterungen nicht autonom implementieren können. Obwohl die Erfolgsquote mit zusätzlichen, von Menschen verfassten Hinweisen steigt, bleibt die beste Leistung unter dieser Bedingung unter 40 %. Dies deutet darauf hin, dass aktuelle Agenten noch weit davon entfernt sind, realistische Forschungsaufgaben ohne erhebliche menschliche Anleitung bewältigen zu können.

English

Agents based on Large Language Models (LLMs) have shown promise for performing sophisticated software engineering tasks autonomously. In addition, there has been progress towards developing agents that can perform parts of the research pipeline in machine learning and the natural sciences. We argue that research extension and its implementation is a critical capability for such systems, and introduce RExBench to support the evaluation of this capability. RExBench is a benchmark consisting of 12 realistic research experiment implementation tasks that aim to investigate research hypotheses that have not previously been implemented. Each task is set up as an extension to an existing research paper and codebase, accompanied by domain expert-written instructions. RExBench is robust to data contamination, and supports an automatic evaluation infrastructure that executes agent outputs to determine whether the success criteria are met. We use this benchmark to evaluate nine LLM agents implemented using three different frameworks: aider, Claude Code, and OpenHands. We find that all agents evaluated fail to autonomously implement the majority of the extensions. Although the success rate improves with additional human-written hints, the best performance under this setting remains below 40%. This indicates that current agents are still short of being able to handle realistic research extension tasks without substantial human guidance.

RExBench: Können programmierende Agenten eigenständig KI-Forschungserweiterungen implementieren?

RExBench: Can coding agents autonomously implement AI research extensions?

Zusammenfassung

Support