RExBench: ¿Pueden los agentes de programación implementar de manera autónoma extensiones de investigación en IA?
RExBench: Can coding agents autonomously implement AI research extensions?
June 27, 2025
Autores: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI
Resumen
Los agentes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado potencial para realizar tareas sofisticadas de ingeniería de software de manera autónoma. Además, se ha avanzado en el desarrollo de agentes capaces de llevar a cabo partes del proceso de investigación en aprendizaje automático y ciencias naturales. Argumentamos que la extensión de investigación y su implementación es una capacidad crítica para estos sistemas, y presentamos RExBench para apoyar la evaluación de esta capacidad. RExBench es un benchmark que consta de 12 tareas realistas de implementación de experimentos de investigación, diseñadas para investigar hipótesis que no han sido implementadas previamente. Cada tarea se configura como una extensión de un artículo de investigación y un código base existentes, acompañados de instrucciones escritas por expertos en el dominio. RExBench es robusto frente a la contaminación de datos y cuenta con una infraestructura de evaluación automática que ejecuta las salidas de los agentes para determinar si se cumplen los criterios de éxito. Utilizamos este benchmark para evaluar nueve agentes LLM implementados con tres frameworks diferentes: aider, Claude Code y OpenHands. Encontramos que todos los agentes evaluados no logran implementar de manera autónoma la mayoría de las extensiones. Aunque la tasa de éxito mejora con pistas adicionales escritas por humanos, el mejor rendimiento en este escenario se mantiene por debajo del 40%. Esto indica que los agentes actuales aún no están preparados para manejar tareas realistas de extensión de investigación sin una guía humana sustancial.
English
Agents based on Large Language Models (LLMs) have shown promise for
performing sophisticated software engineering tasks autonomously. In addition,
there has been progress towards developing agents that can perform parts of the
research pipeline in machine learning and the natural sciences. We argue that
research extension and its implementation is a critical capability for such
systems, and introduce RExBench to support the evaluation of this capability.
RExBench is a benchmark consisting of 12 realistic research experiment
implementation tasks that aim to investigate research hypotheses that have not
previously been implemented. Each task is set up as an extension to an existing
research paper and codebase, accompanied by domain expert-written instructions.
RExBench is robust to data contamination, and supports an automatic evaluation
infrastructure that executes agent outputs to determine whether the success
criteria are met. We use this benchmark to evaluate nine LLM agents implemented
using three different frameworks: aider, Claude Code, and OpenHands. We find
that all agents evaluated fail to autonomously implement the majority of the
extensions. Although the success rate improves with additional human-written
hints, the best performance under this setting remains below 40%. This
indicates that current agents are still short of being able to handle realistic
research extension tasks without substantial human guidance.