DeNovoSWE: Skalierung von Langzeithorizont-Umgebungen zur Generierung vollständiger Repositories von Grund auf

Zusammenfassung

Da die Fähigkeiten von auf großen Sprachmodellen (LLMs) basierenden Code-Agenten immer weiter voranschreiten, erweitert sich ihre erwartete Rolle von der lokalen Fehlerbehebung in bestehenden Codebasen hin zur Architektur und Implementierung vollständiger Software-Repositories auf der Grundlage von hochrangigen Spezifikationen. Das Training von Agenten für solche langfristigen Softwareentwicklungsaufgaben bleibt jedoch schwierig, da nur wenige groß angelegte, verifizierbare Daten zur Generierung vollständiger Repositories verfügbar sind. In diesem Artikel stellen wir DeNovoSWE vor, einen groß angelegten Datensatz zur Generierung vollständiger Repositories. DeNovoSWE umfasst 4.818 qualitativ hochwertige Instanzen, bei denen jede Instanz die Generierung eines vollständigen Repositories aus einer Dokumentation erfordert. Unser Datensatz wird automatisch durch einen sorgfältig entworfenen, in einer Sandbox ausgeführten agentischen Workflow erstellt, was eine skalierbare Kuratierung ohne manuelle Annotation ermöglicht. DeNovoSWE basiert auf der Philosophie von "Teile und herrsche" sowie Kritik und Reparatur. Um die Datenqualität und -vielfalt auszugleichen, führen wir zudem eine schwierigkeitsbewusste Trajektorien-Filterstrategie ein. Das Fine-Tuning von Qwen3-30B-A3B auf DeNovoSWE verbessert die langfristige SWE-Leistung erheblich und steigert seine Punktzahl auf dem anspruchsvollen BeyondSWE-Doc2Repo-Benchmark von 5,8% auf 47,2%.

English

As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce DeNovoSWE, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.