ChatPaper.aiChatPaper

NL2Repo-Bench:コーディングエージェントの長期的リポジトリ生成評価に向けて

NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

December 14, 2025
著者: Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou, Hongwan Gao, Xiang Gao, Chao He, Yue Hou, Fei Hu, Zhaojian Li, Weiran Shi, Zaiyuan Wang, Daoguang Zan, Chenchen Zhang, Xiaoxu Zhang, Qizhi Chen, Xianfu Cheng, Bo Deng, Qingshui Gu, Kai Hua, Juntao Lin, Pai Liu, Mingchen Li, Xuanguang Pan, Zifan Peng, Yujia Qin, Yong Shan, Zhewen Tan, Weihao Xie, Zihan Wang, Yishuo Yuan, Jiayu Zhang, Enduo Zhao, Yunfei Zhao, He Zhu, Chenyang Zou, Ming Ding, Jianpeng Jiao, Jiaheng Liu, Minghao Liu, Qian Liu, Chongyao Tao, Jian Yang, Tong Yang, Zhaoxiang Zhang, Xinjie Chen, Wenhao Huang, Ge Zhang
cs.AI

要旨

コーディングエージェントの最近の進歩は自律的なソフトウェア開発に向けた急速な進展を示唆しているが、既存のベンチマークは完全なソフトウェアシステムを構築するために必要な長期的な能力を厳密に評価できていない。従来の評価のほとんどは、局所的なコード生成、足場付きの補完、あるいは短期的な修正タスクに焦点を当てており、現実のリポジトリ構築で求められる長期的な視野において、エージェントが首尾一貫した推論、計画、実行を維持できるかどうかは未解決の問題である。この課題を解決するため、我々はコーディングエージェントの長期的リポジトリ生成能力を評価するために明示的に設計されたベンチマーク「NL2Repo Bench」を提案する。単一の自然言語要求文書と空のワークスペースのみが与えられた条件下で、エージェントは自律的にアーキテクチャを設計し、依存関係を管理し、複数モジュールのロジックを実装し、完全にインストール可能なPythonライブラリを生成しなければならない。最先端のオープンソースおよびクローズドソースモデルを用いた実験により、長期的なリポジトリ生成は大部分が未解決であることが明らかとなった:最も強力なエージェントでさえ平均テスト合格率が40%未満であり、完全なリポジトリを正確に完成させることは稀である。詳細な分析から、早期終了、グローバルな一貫性の喪失、脆弱なクロスファイル依存関係、数百の相互作用ステップにわたる不適切な計画といった、長期的な視野における根本的な失敗モードが明らかになった。NL2Repo Benchは、持続的なエージェント能力を測定するための厳密で検証可能なテストベッドを確立し、長期的な推論が次世代自律コーディングエージェントの中核的ボトルネックであることを浮き彫りにする。
English
Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.
PDF392December 17, 2025