RExBench : Les agents de codage peuvent-ils implémenter de manière autonome des extensions de recherche en IA ?
RExBench: Can coding agents autonomously implement AI research extensions?
June 27, 2025
Auteurs: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI
Résumé
Les agents basés sur des modèles de langage à grande échelle (LLMs) ont montré des perspectives prometteuses pour accomplir de manière autonome des tâches complexes en ingénierie logicielle. Par ailleurs, des progrès ont été réalisés dans le développement d'agents capables d'exécuter des parties du pipeline de recherche en apprentissage automatique et dans les sciences naturelles. Nous soutenons que l'extension de la recherche et sa mise en œuvre constituent une capacité essentielle pour de tels systèmes, et nous introduisons RExBench pour soutenir l'évaluation de cette capacité. RExBench est un benchmark composé de 12 tâches réalistes de mise en œuvre d'expériences de recherche visant à explorer des hypothèses de recherche qui n'ont pas encore été implémentées. Chaque tâche est conçue comme une extension à un article de recherche et à une base de code existants, accompagnée d'instructions rédigées par des experts du domaine. RExBench est robuste à la contamination des données et prend en charge une infrastructure d'évaluation automatique qui exécute les sorties des agents pour déterminer si les critères de succès sont atteints. Nous utilisons ce benchmark pour évaluer neuf agents LLM implémentés à l'aide de trois frameworks différents : aider, Claude Code et OpenHands. Nous constatons que tous les agents évalués échouent à implémenter de manière autonome la majorité des extensions. Bien que le taux de réussite s'améliore avec des indices supplémentaires rédigés par des humains, la meilleure performance dans ce contexte reste inférieure à 40 %. Cela indique que les agents actuels sont encore loin de pouvoir gérer des tâches réalistes d'extension de recherche sans un guidage humain substantiel.
English
Agents based on Large Language Models (LLMs) have shown promise for
performing sophisticated software engineering tasks autonomously. In addition,
there has been progress towards developing agents that can perform parts of the
research pipeline in machine learning and the natural sciences. We argue that
research extension and its implementation is a critical capability for such
systems, and introduce RExBench to support the evaluation of this capability.
RExBench is a benchmark consisting of 12 realistic research experiment
implementation tasks that aim to investigate research hypotheses that have not
previously been implemented. Each task is set up as an extension to an existing
research paper and codebase, accompanied by domain expert-written instructions.
RExBench is robust to data contamination, and supports an automatic evaluation
infrastructure that executes agent outputs to determine whether the success
criteria are met. We use this benchmark to evaluate nine LLM agents implemented
using three different frameworks: aider, Claude Code, and OpenHands. We find
that all agents evaluated fail to autonomously implement the majority of the
extensions. Although the success rate improves with additional human-written
hints, the best performance under this setting remains below 40%. This
indicates that current agents are still short of being able to handle realistic
research extension tasks without substantial human guidance.