ChatPaper.aiChatPaper

RExBench: コーディングエージェントはAI研究の拡張を自律的に実装できるか?

RExBench: Can coding agents autonomously implement AI research extensions?

June 27, 2025
著者: Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim
cs.AI

要旨

大規模言語モデル(LLM)を基盤としたエージェントは、高度なソフトウェアエンジニアリングタスクを自律的に実行する可能性を示しています。さらに、機械学習や自然科学の研究パイプラインの一部を実行できるエージェントの開発も進んでいます。本研究では、研究の拡張とその実装が、こうしたシステムにとって重要な能力であると主張し、この能力を評価するためのRExBenchを紹介します。RExBenchは、これまでに実装されていない研究仮説を調査することを目的とした、12の現実的な研究実験実装タスクからなるベンチマークです。各タスクは、既存の研究論文とコードベースに対する拡張として設定され、ドメインエキスパートが作成した指示が付属しています。RExBenchはデータ汚染に対して頑健であり、エージェントの出力を実行して成功基準が満たされているかどうかを判定する自動評価インフラをサポートしています。このベンチマークを使用して、aider、Claude Code、OpenHandsという3つの異なるフレームワークで実装された9つのLLMエージェントを評価しました。その結果、評価されたすべてのエージェントが、拡張の大部分を自律的に実装することに失敗していることがわかりました。人間が追加したヒントによって成功率は向上するものの、この設定下での最高のパフォーマンスでも40%未満にとどまります。これは、現状のエージェントが、現実的な研究拡張タスクを人間の大幅なガイダンスなしに処理できる段階にはまだ達していないことを示しています。
English
Agents based on Large Language Models (LLMs) have shown promise for performing sophisticated software engineering tasks autonomously. In addition, there has been progress towards developing agents that can perform parts of the research pipeline in machine learning and the natural sciences. We argue that research extension and its implementation is a critical capability for such systems, and introduce RExBench to support the evaluation of this capability. RExBench is a benchmark consisting of 12 realistic research experiment implementation tasks that aim to investigate research hypotheses that have not previously been implemented. Each task is set up as an extension to an existing research paper and codebase, accompanied by domain expert-written instructions. RExBench is robust to data contamination, and supports an automatic evaluation infrastructure that executes agent outputs to determine whether the success criteria are met. We use this benchmark to evaluate nine LLM agents implemented using three different frameworks: aider, Claude Code, and OpenHands. We find that all agents evaluated fail to autonomously implement the majority of the extensions. Although the success rate improves with additional human-written hints, the best performance under this setting remains below 40%. This indicates that current agents are still short of being able to handle realistic research extension tasks without substantial human guidance.
PDF61July 1, 2025