NL2Repo-Bench : Vers une évaluation de la génération de dépôts à long horizon pour les agents de codage

papers.abstract

Les récents progrès des agents de programmation laissent entrevoir une avancée rapide vers le développement logiciel autonome, pourtant les benchmarks existants n’évaluent pas rigoureusement les capacités à long terme nécessaires à la construction de systèmes logiciels complets. La plupart des évaluations antérieures se concentrent sur la génération localisée de code, la complétion assistée ou des tâches de correction à court terme, laissant ouverte la question de savoir si les agents peuvent maintenir un raisonnement, une planification et une exécution cohérents sur les longues durées exigées par la construction réaliste de dépôts. Pour combler cette lacune, nous présentons NL2Repo Bench, un benchmark explicitement conçu pour évaluer la capacité des agents de programmation à générer des dépôts sur le long terme. Avec seulement un document de spécifications en langage naturel et un espace de travail vide, les agents doivent concevoir de manière autonome l’architecture, gérer les dépendances, implémenter une logique multi-modules et produire une bibliothèque Python entièrement installable. Nos expériences sur les modèles open source et propriétaires les plus avancés montrent que la génération de dépôts à long horizon reste largement non résolue : même les agents les plus performants n’atteignent en moyenne que moins de 40 % de taux de réussite aux tests et parviennent rarement à produire un dépôt complet et correct. Une analyse détaillée révèle des modes d’échec fondamentaux sur le long terme, notamment l’arrêt prématuré, la perte de cohérence globale, des dépendances inter-fichiers fragiles et une planification inadéquate sur des centaines d’étapes d’interaction. NL2Repo Bench établit un banc d’essai rigoureux et vérifiable pour mesurer la compétence agentielle soutenue et souligne le raisonnement à long terme comme un goulot d’étranglement central pour la prochaine génération d’agents de programmation autonomes.

English

Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.

NL2Repo-Bench : Vers une évaluation de la génération de dépôts à long horizon pour les agents de codage

NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

papers.abstract

Support