NL2Repo-Bench: Auf dem Weg zur Evaluierung von Coding-Agenten für die langfristige Repository-Generierung

papers.abstract

Jüngste Fortschritte bei programmierenden Agenten deuten auf rasante Fortschritte in Richtung autonomer Softwareentwicklung hin, doch bestehende Benchmarks bewerten die langfristigen Fähigkeiten, die für den Aufbau kompletter Softwaresysteme erforderlich sind, nicht rigoros. Die meisten bisherigen Evaluierungen konzentrieren sich auf lokalisierte Codegenerierung, gerüstgestützte Vervollständigung oder kurzfristige Reparaturaufgaben. Daher bleibt die Frage offen, ob Agenten kohärentes Denken, Planen und Ausführen über die langen Zeithorizonte hinweg aufrechterhalten können, die der Aufbau realer Repositorys erfordert. Um diese Lücke zu schließen, präsentieren wir NL2Repo Bench, einen Benchmark, der explizit zur Bewertung der Fähigkeit von Programmieragenten zur langfristigen Repository-Generierung entwickelt wurde. Ausgehend lediglich von einem einzigen natürlichkeitssprachlichen Anforderungsdokument und einem leeren Arbeitsbereich müssen Agenten autonom die Architektur entwerfen, Abhängigkeiten verwalten, multimodale Logik implementieren und eine vollständig installierbare Python-Bibliothek erstellen. Unsere Experimente mit modernsten Open-Source- und Closed-Source-Modellen zeigen, dass die langfristige Repository-Generierung größtenteils ungelöst bleibt: Selbst die leistungsstärksten Agenten erreichen durchschnittliche Testbestandenraten von unter 40 % und vollenden nur selten ein gesamtes Repository korrekt. Detaillierte Analysen decken grundlegende Fehlermodi bei langen Zeithorizonten auf, darunter vorzeitiger Abbruch, Verlust der globalen Kohärenz, fragile dateiübergreifende Abhängigkeiten und unzureichende Planung über hunderte von Interaktionsschritten hinweg. NL2Repo Bench etabliert eine rigorose, verifizierbare Testumgebung zur Messung nachhaltiger agentenbasierter Kompetenz und identifiziert langfristiges Schlussfolgern als zentrales Hindernis für die nächste Generation autonomer Programmieragenten.

English

Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.

NL2Repo-Bench: Auf dem Weg zur Evaluierung von Coding-Agenten für die langfristige Repository-Generierung

NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

papers.abstract

Support