DeNovoSWE: Opschalen van Omgevingen met Lange Horizon voor het Genereren van Volledige Repositories vanaf Nul

Samenvatting

Naarmate de mogelijkheden van op LLM gebaseerde code-agenten blijven toenemen, breidt hun verwachte rol zich uit van gelokaliseerde bugfixes in bestaande codebases naar het ontwerpen en implementeren van volledige software-repositories op basis van specificaties op hoog niveau. Het trainen van agenten voor dergelijke langdurige software engineering taken blijft echter moeilijk vanwege de schaarste aan grootschalige, verifieerbare data voor het genereren van volledige repositories. In dit artikel introduceren we DeNovoSWE, een grootschalige dataset voor het genereren van volledige repositories. DeNovoSWE omvat 4.818 hoogwaardige instanties, waarbij elke instantie vereist dat een complete repository wordt gegenereerd op basis van documentatie. Onze dataset wordt automatisch geconstrueerd via een zorgvuldig ontworpen gesandboxte agentische workflow, wat schaalbare curatie mogelijk maakt zonder menselijke annotatie. DeNovoSWE is gebouwd met een 'verdeel en heers'- en kritiek-reparatie filosofie. Om datakwaliteit en -diversiteit in evenwicht te brengen, introduceren we verder een moeilijkheidsbewuste trajectfilteringsstrategie. Fine-tuning van Qwen3-30B-A3B op DeNovoSWE verbetert de prestaties op het gebied van langdurige SWE aanzienlijk, waarbij de score op de uitdagende BeyondSWE-Doc2Repo-benchmark stijgt van 5,8% naar 47,2%.

English

As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce DeNovoSWE, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.