NL2Repo-Bench: Op weg naar evaluatie van repository-generatie met lange horizon voor codeeragents
NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
December 14, 2025
Auteurs: Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou, Hongwan Gao, Xiang Gao, Chao He, Yue Hou, Fei Hu, Zhaojian Li, Weiran Shi, Zaiyuan Wang, Daoguang Zan, Chenchen Zhang, Xiaoxu Zhang, Qizhi Chen, Xianfu Cheng, Bo Deng, Qingshui Gu, Kai Hua, Juntao Lin, Pai Liu, Mingchen Li, Xuanguang Pan, Zifan Peng, Yujia Qin, Yong Shan, Zhewen Tan, Weihao Xie, Zihan Wang, Yishuo Yuan, Jiayu Zhang, Enduo Zhao, Yunfei Zhao, He Zhu, Chenyang Zou, Ming Ding, Jianpeng Jiao, Jiaheng Liu, Minghao Liu, Qian Liu, Chongyao Tao, Jian Yang, Tong Yang, Zhaoxiang Zhang, Xinjie Chen, Wenhao Huang, Ge Zhang
cs.AI
Samenvatting
Recente vooruitgang in codeeragents suggereert een snelle ontwikkeling richting autonome software-ontwikkeling, maar bestaande benchmarks slagen er niet in om de langetermijncapaciteiten die nodig zijn voor het bouwen van complete softwaresystemen rigoureus te evalueren. De meeste eerdere evaluaties richten zich op gelokaliseerde codegeneratie, gestructureerde voltooiing of kortetermijnreparatietaken, waardoor de vraag onbeantwoord blijft of agents coherent kunnen redeneren, plannen en uitvoeren over de langere termijn die vereist is voor de constructie van echte software repositories. Om deze leemte op te vullen, presenteren wij NL2Repo Bench, een benchmark die expliciet is ontworpen om het vermogen van codeeragents om repositories op de lange termijn te genereren te evalueren. Met alleen een enkel natuurlijktaal-vereistendocument en een lege werkruimte moeten agents autonoom de architectuur ontwerpen, afhankelijkheden beheren, multimodulelogica implementeren en een volledig installeerbare Python-bibliotheek produceren. Onze experimenten met state-of-the-art open-source en closed-source modellen tonen aan dat repository-generatie op de lange termijn grotendeels een onopgelost probleem blijft: zelfs de krachtigste agents halen gemiddelde testslaagpercentages van onder de 40% en voltooien zelden een volledige repository correct. Gedetailleerde analyse onthult fundamentele langetermijnfoutmodi, waaronder voortijdige beëindiging, verlies van globale coherentie, fragiele kruisbestandsafhankelijkheden en ontoereikende planning over honderden interactiestappen. NL2Repo Bench creëert een rigoureuze, verifieerbare testomgeving voor het meten van aanhoudende agentcompetentie en benadrukt langetermijnredenering als een centrale bottleneck voor de volgende generatie autonome codeeragents.
English
Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.