RExBench: Kunnen coderende agents autonoom AI-onderzoeksextensies implementeren?
RExBench: Can coding agents autonomously implement AI research extensions?
June 27, 2025
Auteurs: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI
Samenvatting
Agents gebaseerd op Large Language Models (LLMs) hebben potentie getoond voor het autonoom uitvoeren van geavanceerde software engineering taken. Daarnaast is er vooruitgang geboekt bij het ontwikkelen van agents die delen van de onderzoekspijplijn in machine learning en de natuurwetenschappen kunnen uitvoeren. Wij stellen dat het uitbreiden van onderzoek en de implementatie daarvan een cruciale vaardigheid is voor dergelijke systemen, en introduceren RExBench om de evaluatie van deze vaardigheid te ondersteunen. RExBench is een benchmark die bestaat uit 12 realistische onderzoeksexperimentimplementatietaken die gericht zijn op het onderzoeken van onderzoekshypothesen die nog niet eerder zijn geïmplementeerd. Elke taak is opgezet als een uitbreiding van een bestaand onderzoekspaper en codebase, vergezeld van instructies geschreven door domeinexperts. RExBench is robuust tegen datacontaminatie en ondersteunt een automatische evaluatie-infrastructuur die de uitvoer van agents uitvoert om te bepalen of de succescriteria worden gehaald. We gebruiken deze benchmark om negen LLM-agents te evalueren die zijn geïmplementeerd met behulp van drie verschillende frameworks: aider, Claude Code en OpenHands. We constateren dat alle geëvalueerde agents er niet in slagen om de meerderheid van de uitbreidingen autonoom te implementeren. Hoewel het slagingspercentage verbetert met aanvullende door mensen geschreven hints, blijft de beste prestatie onder deze instelling onder de 40%. Dit geeft aan dat huidige agents nog niet in staat zijn om realistische onderzoeksuitbreidingstaken aan te kunnen zonder aanzienlijke menselijke begeleiding.
English
Agents based on Large Language Models (LLMs) have shown promise for
performing sophisticated software engineering tasks autonomously. In addition,
there has been progress towards developing agents that can perform parts of the
research pipeline in machine learning and the natural sciences. We argue that
research extension and its implementation is a critical capability for such
systems, and introduce RExBench to support the evaluation of this capability.
RExBench is a benchmark consisting of 12 realistic research experiment
implementation tasks that aim to investigate research hypotheses that have not
previously been implemented. Each task is set up as an extension to an existing
research paper and codebase, accompanied by domain expert-written instructions.
RExBench is robust to data contamination, and supports an automatic evaluation
infrastructure that executes agent outputs to determine whether the success
criteria are met. We use this benchmark to evaluate nine LLM agents implemented
using three different frameworks: aider, Claude Code, and OpenHands. We find
that all agents evaluated fail to autonomously implement the majority of the
extensions. Although the success rate improves with additional human-written
hints, the best performance under this setting remains below 40%. This
indicates that current agents are still short of being able to handle realistic
research extension tasks without substantial human guidance.