NL2Repo-Bench: Hacia la Evaluación de Generación de Repositorios a Largo Plazo para Agentes de Programación
NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
December 14, 2025
Autores: Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou, Hongwan Gao, Xiang Gao, Chao He, Yue Hou, Fei Hu, Zhaojian Li, Weiran Shi, Zaiyuan Wang, Daoguang Zan, Chenchen Zhang, Xiaoxu Zhang, Qizhi Chen, Xianfu Cheng, Bo Deng, Qingshui Gu, Kai Hua, Juntao Lin, Pai Liu, Mingchen Li, Xuanguang Pan, Zifan Peng, Yujia Qin, Yong Shan, Zhewen Tan, Weihao Xie, Zihan Wang, Yishuo Yuan, Jiayu Zhang, Enduo Zhao, Yunfei Zhao, He Zhu, Chenyang Zou, Ming Ding, Jianpeng Jiao, Jiaheng Liu, Minghao Liu, Qian Liu, Chongyao Tao, Jian Yang, Tong Yang, Zhaoxiang Zhang, Xinjie Chen, Wenhao Huang, Ge Zhang
cs.AI
Resumen
Los recientes avances en agentes de codificación sugieren un progreso acelerado hacia el desarrollo de software autónomo; sin embargo, los puntos de referencia existentes no logran evaluar rigurosamente las capacidades de largo horizonte necesarias para construir sistemas de software completos. La mayoría de las evaluaciones previas se centran en la generación de código localizada, la finalización con andamiaje o tareas de reparación a corto plazo, dejando abierta la cuestión de si los agentes pueden sostener un razonamiento, una planificación y una ejecución coherentes a lo largo de los horizontes extendidos que exige la construcción de repositorios del mundo real. Para abordar esta brecha, presentamos NL2Repo Bench, un punto de referencia diseñado explícitamente para evaluar la capacidad de generación de repositorios de largo horizonte de los agentes de codificación. Dado únicamente un documento de requisitos en lenguaje natural y un espacio de trabajo vacío, los agentes deben diseñar autónomamente la arquitectura, gestionar dependencias, implementar lógica multi-módulo y producir una biblioteca Python completamente instalable. Nuestros experimentos con modelos de última generación, tanto de código abierto como cerrado, revelan que la generación de repositorios de largo horizonte sigue siendo en gran medida un problema sin resolver: incluso los agentes más potentes logran tasas promedio de éxito en las pruebas por debajo del 40% y rara vez completan un repositorio completo correctamente. Un análisis detallado descubre modos de fallo fundamentales en el largo horizonte, que incluyen la terminación prematura, la pérdida de coherencia global, dependencias cruzadas frágiles entre archivos y una planificación inadecuada a lo largo de cientos de pasos de interacción. NL2Repo Bench establece un banco de pruebas riguroso y verificable para medir la competencia agencial sostenida y destaca el razonamiento de largo horizonte como un cuello de botella central para la próxima generación de agentes de codificación autónomos.
English
Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.