ChatPaper.aiChatPaper

NL2Repo-Bench: Verso una valutazione della generazione di repository a lungo orizzonte per agenti di programmazione

NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

December 14, 2025
Autori: Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou, Hongwan Gao, Xiang Gao, Chao He, Yue Hou, Fei Hu, Zhaojian Li, Weiran Shi, Zaiyuan Wang, Daoguang Zan, Chenchen Zhang, Xiaoxu Zhang, Qizhi Chen, Xianfu Cheng, Bo Deng, Qingshui Gu, Kai Hua, Juntao Lin, Pai Liu, Mingchen Li, Xuanguang Pan, Zifan Peng, Yujia Qin, Yong Shan, Zhewen Tan, Weihao Xie, Zihan Wang, Yishuo Yuan, Jiayu Zhang, Enduo Zhao, Yunfei Zhao, He Zhu, Chenyang Zou, Ming Ding, Jianpeng Jiao, Jiaheng Liu, Minghao Liu, Qian Liu, Chongyao Tao, Jian Yang, Tong Yang, Zhaoxiang Zhang, Xinjie Chen, Wenhao Huang, Ge Zhang
cs.AI

Abstract

I recenti progressi negli agenti di programmazione suggeriscono rapidi passi avanti verso lo sviluppo software autonomo, eppure i benchmark esistenti non riescono a valutare rigorosamente le capacità a lungo termine necessarie per costruire sistemi software completi. La maggior parte delle valutazioni precedenti si concentra sulla generazione di codice localizzato, sul completamento guidato o su compiti di riparazione a breve termine, lasciando aperta la questione se gli agenti possano sostenere ragionamenti, pianificazione ed esecuzione coerenti sugli orizzonti estesi richiesti dalla costruzione di repository nel mondo reale. Per colmare questa lacuna, presentiamo NL2Repo Bench, un benchmark progettato esplicitamente per valutare la capacità di generazione di repository a lungo termine degli agenti di programmazione. Dato solo un singolo documento di specifiche in linguaggio naturale e un'area di lavoro vuota, gli agenti devono progettare autonomamente l'architettura, gestire le dipendenze, implementare logiche multi-modulo e produrre una libreria Python completamente installabile. I nostri esperimenti condotti sui modelli open-source e proprietari più all'avanguardia rivelano che la generazione di repository a lungo termine rimane in gran parte irrisolta: anche gli agenti più potenti raggiungono tassi di successo medi inferiori al 40% e raramente completano correttamente un intero repository. Un'analisi dettagliata mette in luce modalità fondamentali di fallimento a lungo termine, tra cui terminazione prematura, perdita di coerenza globale, dipendenze cross-file fragili e pianificazione inadeguata su centinaia di passi di interazione. NL2Repo Bench stabilisce un banco di prova rigoroso e verificabile per misurare la competenza agentica sostenuta e evidenzia il ragionamento a lungo termine come un collo di bottiglia centrale per la prossima generazione di agenti di programmazione autonomi.
English
Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.
PDF422December 19, 2025