ChatPaper.aiChatPaper

NL2Repo-Bench: К оценке генерации репозиториев с длительным горизонтом для кодирующих агентов

NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

December 14, 2025
Авторы: Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou, Hongwan Gao, Xiang Gao, Chao He, Yue Hou, Fei Hu, Zhaojian Li, Weiran Shi, Zaiyuan Wang, Daoguang Zan, Chenchen Zhang, Xiaoxu Zhang, Qizhi Chen, Xianfu Cheng, Bo Deng, Qingshui Gu, Kai Hua, Juntao Lin, Pai Liu, Mingchen Li, Xuanguang Pan, Zifan Peng, Yujia Qin, Yong Shan, Zhewen Tan, Weihao Xie, Zihan Wang, Yishuo Yuan, Jiayu Zhang, Enduo Zhao, Yunfei Zhao, He Zhu, Chenyang Zou, Ming Ding, Jianpeng Jiao, Jiaheng Liu, Minghao Liu, Qian Liu, Chongyao Tao, Jian Yang, Tong Yang, Zhaoxiang Zhang, Xinjie Chen, Wenhao Huang, Ge Zhang
cs.AI

Аннотация

Последние достижения в области кодирующих агентов свидетельствуют о быстром прогрессе в направлении автономной разработки программного обеспечения, однако существующие бенчмарки не позволяют строго оценить долгосрочные возможности, необходимые для построения полноценных программных систем. Большинство предыдущих оценок сосредоточено на локализованной генерации кода, завершении по шаблону или краткосрочных задачах исправления, оставляя открытым вопрос о том, способны ли агенты поддерживать последовательные рассуждения, планирование и выполнение в течение длительных временных горизонтов, требуемых для создания реальных репозиториев. Для устранения этого пробела мы представляем NL2Repo Bench — бенчмарк, явно предназначенный для оценки способности кодирующих агентов к долгосрочной генерации репозиториев. Имея только один документ с требованиями на естественном языке и пустое рабочее пространство, агенты должны автономно проектировать архитектуру, управлять зависимостями, реализовывать многомодульную логику и создавать полностью устанавливаемую Python-библиотеку. Наши эксперименты с передовыми открытыми и проприетарными моделями показывают, что долгосрочная генерация репозиториев в значительной степени остается нерешенной задачей: даже самые мощные агенты демонстрируют средний уровень прохождения тестов ниже 40% и редко завершают создание целого репозитория корректно. Детальный анализ выявляет фундаментальные долгосрочные ошибки, включая преждевременное завершение, потерю глобальной согласованности, хрупкие межфайловые зависимости и неадекватное планирование на сотнях шагов взаимодействия. NL2Repo Bench устанавливает строгий, верифицируемый полигон для измерения устойчивой агентной компетенции и выделяет долгосрочные рассуждения как ключевое узкое место для следующего поколения автономных кодирующих агентов.
English
Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.
PDF392December 17, 2025