DeNovoSWE : Mise à l'échelle des environnements à long horizon pour la génération de dépôts entiers à partir de zéro

Résumé

Alors que les capacités des agents de code basés sur les LLM continuent de progresser, leur rôle attendu s’étend désormais au-delà de la correction localisée de bogues dans des bases de code existantes, pour s’orienter vers la conception et l’implémentation de référentiels logiciels complets à partir de spécifications de haut niveau. Cependant, l’entraînement d’agents pour de telles tâches d’ingénierie logicielle à long horizon reste difficile en raison de la rareté de données à grande échelle et vérifiables de génération complète de dépôts. Dans cet article, nous présentons DeNovoSWE, un jeu de données à grande échelle pour la génération complète de dépôts. DeNovoSWE comprend 4 818 instances de haute qualité, chacune nécessitant de générer un dépôt complet à partir d’une documentation. Notre jeu de données est construit automatiquement grâce à un workflow agentique en environnement isolé soigneusement conçu, permettant une curation scalable sans annotation humaine. DeNovoSWE est élaboré selon une philosophie de « diviser pour régner » et de critique-réparation. Pour équilibrer qualité et diversité des données, nous introduisons en outre une stratégie de filtrage des trajectoires sensible à la difficulté. Le fine-tuning de Qwen3-30B-A3B sur DeNovoSWE améliore considérablement les performances en génie logiciel à long horizon, faisant passer son score sur le benchmark exigeant BeyondSWE-Doc2Repo de 5,8 % à 47,2 %.

English

As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce DeNovoSWE, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.