RExBench: コーディングエージェントはAI研究の拡張を自律的に実装できるか?
RExBench: Can coding agents autonomously implement AI research extensions?
June 27, 2025
著者: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI
要旨
大規模言語モデル(LLM)を基盤としたエージェントは、高度なソフトウェアエンジニアリングタスクを自律的に実行する可能性を示しています。さらに、機械学習や自然科学の研究パイプラインの一部を実行できるエージェントの開発も進んでいます。本研究では、研究の拡張とその実装が、こうしたシステムにとって重要な能力であると主張し、この能力を評価するためのRExBenchを紹介します。RExBenchは、これまでに実装されていない研究仮説を調査することを目的とした、12の現実的な研究実験実装タスクからなるベンチマークです。各タスクは、既存の研究論文とコードベースに対する拡張として設定され、ドメインエキスパートが作成した指示が付属しています。RExBenchはデータ汚染に対して頑健であり、エージェントの出力を実行して成功基準が満たされているかどうかを判定する自動評価インフラをサポートしています。このベンチマークを使用して、aider、Claude Code、OpenHandsという3つの異なるフレームワークで実装された9つのLLMエージェントを評価しました。その結果、評価されたすべてのエージェントが、拡張の大部分を自律的に実装することに失敗していることがわかりました。人間が追加したヒントによって成功率は向上するものの、この設定下での最高のパフォーマンスでも40%未満にとどまります。これは、現状のエージェントが、現実的な研究拡張タスクを人間の大幅なガイダンスなしに処理できる段階にはまだ達していないことを示しています。
English
Agents based on Large Language Models (LLMs) have shown promise for
performing sophisticated software engineering tasks autonomously. In addition,
there has been progress towards developing agents that can perform parts of the
research pipeline in machine learning and the natural sciences. We argue that
research extension and its implementation is a critical capability for such
systems, and introduce RExBench to support the evaluation of this capability.
RExBench is a benchmark consisting of 12 realistic research experiment
implementation tasks that aim to investigate research hypotheses that have not
previously been implemented. Each task is set up as an extension to an existing
research paper and codebase, accompanied by domain expert-written instructions.
RExBench is robust to data contamination, and supports an automatic evaluation
infrastructure that executes agent outputs to determine whether the success
criteria are met. We use this benchmark to evaluate nine LLM agents implemented
using three different frameworks: aider, Claude Code, and OpenHands. We find
that all agents evaluated fail to autonomously implement the majority of the
extensions. Although the success rate improves with additional human-written
hints, the best performance under this setting remains below 40%. This
indicates that current agents are still short of being able to handle realistic
research extension tasks without substantial human guidance.