DeNovoSWE: Ampliando Ambientes de Longo Horizonte para a Geração de Repositórios Inteiros do Zero

Resumo

À medida que as capacidades dos agentes de código baseados em LLM continuam a avançar, seu papel esperado está se expandindo além da correção localizada de bugs em bases de código existentes, em direção à arquitetura e implementação de repositórios de software completos a partir de especificações de alto nível. No entanto, treinar agentes para essas tarefas de engenharia de software de longo horizonte continua sendo difícil devido à escassez de dados de geração de repositórios completos, verificáveis e em larga escala. Neste artigo, apresentamos o DeNovoSWE, um conjunto de dados em larga escala para geração de repositórios completos. O DeNovoSWE compreende 4.818 instâncias de alta qualidade, onde cada instância requer a geração de um repositório completo a partir de documentação. Nosso conjunto de dados é construído automaticamente por meio de um fluxo de trabalho agentivo em sandbox cuidadosamente projetado, permitindo curadoria escalável sem anotação humana. O DeNovoSWE é construído com a filosofia de "dividir e conquistar" e de crítica e reparo. Para equilibrar qualidade e diversidade dos dados, introduzimos ainda uma estratégia de filtragem de trajetórias ciente de dificuldade. O ajuste fino do Qwen3-30B-A3B no DeNovoSWE melhora substancialmente o desempenho em engenharia de software de longo horizonte, elevando sua pontuação no desafiador benchmark BeyondSWE-Doc2Repo de 5,8% para 47,2%.

English

As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce DeNovoSWE, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.