NL2Repo-Bench: 장기적 저장소 생성을 위한 코딩 에이전트 평가 방향
NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
December 14, 2025
저자: Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou, Hongwan Gao, Xiang Gao, Chao He, Yue Hou, Fei Hu, Zhaojian Li, Weiran Shi, Zaiyuan Wang, Daoguang Zan, Chenchen Zhang, Xiaoxu Zhang, Qizhi Chen, Xianfu Cheng, Bo Deng, Qingshui Gu, Kai Hua, Juntao Lin, Pai Liu, Mingchen Li, Xuanguang Pan, Zifan Peng, Yujia Qin, Yong Shan, Zhewen Tan, Weihao Xie, Zihan Wang, Yishuo Yuan, Jiayu Zhang, Enduo Zhao, Yunfei Zhao, He Zhu, Chenyang Zou, Ming Ding, Jianpeng Jiao, Jiaheng Liu, Minghao Liu, Qian Liu, Chongyao Tao, Jian Yang, Tong Yang, Zhaoxiang Zhang, Xinjie Chen, Wenhao Huang, Ge Zhang
cs.AI
초록
코딩 에이전트 분야의 최근 발전은 자율적 소프트웨어 개발로의 급속한 진전을 시사하지만, 기존 벤치마크는 완전한 소프트웨어 시스템 구축에 필요한 장기적(Long-horizon) 능력을 엄격하게 평가하지 못하고 있습니다. 대부분의 기존 평가는 국소적인 코드 생성, 구조화된 완성, 또는 단기적인 수정 작업에 초점을 맞춰, 실제 저장소(Repository) 구축에 필요한 장기적인 관점에서 에이전트가 일관된 추론, 계획 수립 및 실행을 지속할 수 있는지에 대한 의문을 남겼습니다. 이러한 격차를 해결하기 위해, 우리는 코딩 에이전트의 장기적 저장소 생성 능력을 명시적으로 평가하도록 설계된 벤치마크인 NL2Repo Bench를 제시합니다. 단일 자연어 요구사항 문서와 빈 작업 공간만 주어졌을 때, 에이전트는 아키텍처를 자율적으로 설계하고, 의존성을 관리하며, 다중 모듈 로직을 구현하고, 완전히 설치 가능한 Python 라이브러리를 생성해야 합니다. 최첨단 오픈소스 및 클로즈드소스 모델을 대상으로 한 실험 결과, 장기적 저장소 생성은 여전히 대부분 해결되지 않은 과제로 드러났습니다: 가장 강력한 에이전트조차 평균 40% 미만의 테스트 통과율을 보였으며, 전체 저장소를 정확히 완성하는 경우는 드물었습니다. 상세 분석을 통해 조기 종료, 전역 일관성 상실, 취약한 파일 간 의존성, 수백 차례의 상호작용 단계에 걸친 불충분한 계획 수립 등 근본적인 장기적 실패 모드가 발견되었습니다. NL2Repo Bench는 지속적인 에이전트 역량을 측정하기 위한 엄격하고 검증 가능한 테스트베드를 마련하며, 차세대 자율 코딩 에이전트의 핵심 병목 현상으로서 장기적 추론의 중요성을 부각합니다.
English
Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.