RExBench: Могут ли кодирующие агенты автономно реализовывать расширения исследований в области ИИ?
RExBench: Can coding agents autonomously implement AI research extensions?
June 27, 2025
Авторы: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI
Аннотация
Агенты, основанные на крупных языковых моделях (LLM), продемонстрировали потенциал для автономного выполнения сложных задач в области разработки программного обеспечения. Кроме того, наблюдается прогресс в создании агентов, способных выполнять отдельные этапы исследовательского процесса в машинном обучении и естественных науках. Мы утверждаем, что расширение исследований и их реализация являются критически важными возможностями для таких систем, и представляем RExBench для поддержки оценки этой способности. RExBench — это эталонный набор, состоящий из 12 реалистичных задач по реализации исследовательских экспериментов, направленных на изучение гипотез, которые ранее не были реализованы. Каждая задача представлена как расширение существующей научной статьи и кодовой базы, сопровождаемое инструкциями, написанными экспертами в предметной области. RExBench устойчив к загрязнению данных и поддерживает автоматическую инфраструктуру оценки, которая выполняет выходные данные агентов для определения соответствия критериям успеха. Мы используем этот эталонный набор для оценки девяти агентов LLM, реализованных с использованием трех различных фреймворков: aider, Claude Code и OpenHands. Мы обнаруживаем, что все оцениваемые агенты не способны автономно реализовать большинство расширений. Хотя уровень успешности улучшается с добавлением написанных человеком подсказок, лучший результат в таких условиях остается ниже 40%. Это указывает на то, что современные агенты пока не способны справляться с реалистичными задачами расширения исследований без существенного участия человека.
English
Agents based on Large Language Models (LLMs) have shown promise for
performing sophisticated software engineering tasks autonomously. In addition,
there has been progress towards developing agents that can perform parts of the
research pipeline in machine learning and the natural sciences. We argue that
research extension and its implementation is a critical capability for such
systems, and introduce RExBench to support the evaluation of this capability.
RExBench is a benchmark consisting of 12 realistic research experiment
implementation tasks that aim to investigate research hypotheses that have not
previously been implemented. Each task is set up as an extension to an existing
research paper and codebase, accompanied by domain expert-written instructions.
RExBench is robust to data contamination, and supports an automatic evaluation
infrastructure that executes agent outputs to determine whether the success
criteria are met. We use this benchmark to evaluate nine LLM agents implemented
using three different frameworks: aider, Claude Code, and OpenHands. We find
that all agents evaluated fail to autonomously implement the majority of the
extensions. Although the success rate improves with additional human-written
hints, the best performance under this setting remains below 40%. This
indicates that current agents are still short of being able to handle realistic
research extension tasks without substantial human guidance.