RExBench: Agentes de codificação podem implementar autonomamente extensões de pesquisa em IA?
RExBench: Can coding agents autonomously implement AI research extensions?
June 27, 2025
Autores: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI
Resumo
Agentes baseados em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado potencial para realizar tarefas sofisticadas de engenharia de software de forma autônoma. Além disso, houve progressos no desenvolvimento de agentes capazes de executar partes do pipeline de pesquisa em aprendizado de máquina e nas ciências naturais. Argumentamos que a extensão de pesquisa e sua implementação são capacidades críticas para tais sistemas e introduzimos o RExBench para apoiar a avaliação dessa capacidade. O RExBench é um benchmark composto por 12 tarefas realistas de implementação de experimentos de pesquisa que visam investigar hipóteses de pesquisa que ainda não foram implementadas. Cada tarefa é configurada como uma extensão de um artigo de pesquisa e código existente, acompanhada por instruções escritas por especialistas do domínio. O RExBench é robusto à contaminação de dados e suporta uma infraestrutura de avaliação automática que executa as saídas dos agentes para determinar se os critérios de sucesso são atendidos. Utilizamos esse benchmark para avaliar nove agentes LLM implementados usando três frameworks diferentes: aider, Claude Code e OpenHands. Descobrimos que todos os agentes avaliados falham em implementar autonomamente a maioria das extensões. Embora a taxa de sucesso melhore com dicas adicionais escritas por humanos, o melhor desempenho nesse cenário permanece abaixo de 40%. Isso indica que os agentes atuais ainda estão longe de serem capazes de lidar com tarefas realistas de extensão de pesquisa sem uma orientação humana substancial.
English
Agents based on Large Language Models (LLMs) have shown promise for
performing sophisticated software engineering tasks autonomously. In addition,
there has been progress towards developing agents that can perform parts of the
research pipeline in machine learning and the natural sciences. We argue that
research extension and its implementation is a critical capability for such
systems, and introduce RExBench to support the evaluation of this capability.
RExBench is a benchmark consisting of 12 realistic research experiment
implementation tasks that aim to investigate research hypotheses that have not
previously been implemented. Each task is set up as an extension to an existing
research paper and codebase, accompanied by domain expert-written instructions.
RExBench is robust to data contamination, and supports an automatic evaluation
infrastructure that executes agent outputs to determine whether the success
criteria are met. We use this benchmark to evaluate nine LLM agents implemented
using three different frameworks: aider, Claude Code, and OpenHands. We find
that all agents evaluated fail to autonomously implement the majority of the
extensions. Although the success rate improves with additional human-written
hints, the best performance under this setting remains below 40%. This
indicates that current agents are still short of being able to handle realistic
research extension tasks without substantial human guidance.