NL2Repo-Bench: Rumo à Avaliação da Geração de Repositórios de Longo Horizonte em Agentes de Codificação

Resumo

Os recentes avanços em agentes de codificação sugerem um progresso rápido rumo ao desenvolvimento de software autónomo, contudo, os *benchmarks* existentes não avaliam rigorosamente as capacidades de longo horizonte necessárias para construir sistemas de software completos. A maioria das avaliações anteriores concentra-se na geração de código localizada, na conclusão assistida ou em tarefas de reparação de curto prazo, deixando em aberto a questão de saber se os agentes podem sustentar um raciocínio, planeamento e execução coerentes ao longo dos horizontes prolongados exigidos pela construção de repositórios do mundo real. Para colmatar esta lacuna, apresentamos o NL2Repo Bench, um *benchmark* explicitamente concebido para avaliar a capacidade de geração de repositórios de longo horizonte por parte de agentes de codificação. Dado apenas um único documento de requisitos em linguagem natural e uma área de trabalho vazia, os agentes devem conceber autonomamente a arquitetura, gerir dependências, implementar lógica multi-módulo e produzir uma biblioteca Python totalmente instalável. As nossas experiências com os modelos *open-source* e proprietários mais avançados revelam que a geração de repositórios de longo horizonte permanece largamente por resolver: mesmo os agentes mais fortes atingem taxas médias de sucesso em testes abaixo de 40% e raramente completam um repositório inteiro corretamente. Uma análise detalhada revela modos de falha fundamentais de longo horizonte, incluindo terminação prematura, perda de coerência global, dependências interficiais frágeis e planeamento inadequado ao longo de centenas de passos de interação. O NL2Repo Bench estabelece um ambiente de teste rigoroso e verificável para medir a competência agentiva sustentada e destaca o raciocínio de longo horizonte como um estrangulamento central para a próxima geração de agentes de codificação autónomos.

English

Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.

NL2Repo-Bench: Rumo à Avaliação da Geração de Repositórios de Longo Horizonte em Agentes de Codificação

NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

Resumo

Support