DeNovoSWE: Escalamiento de entornos de horizonte largo para la generación de repositorios completos desde cero

Resumen

A medida que las capacidades de los agentes de código basados en LLM continúan avanzando, su rol esperado se expande más allá de la corrección localizada de errores en bases de código existentes hacia el diseño e implementación de repositorios de software completos a partir de especificaciones de alto nivel. Sin embargo, entrenar agentes para tareas de ingeniería de software de horizonte prolongado sigue siendo difícil debido a la escasez de datos de generación de repositorios completos, a gran escala y verificables. En este artículo, presentamos DeNovoSWE, un conjunto de datos a gran escala para la generación de repositorios completos. DeNovoSWE comprende 4.818 instancias de alta calidad, donde cada instancia requiere generar un repositorio completo a partir de documentación. Nuestro conjunto de datos se construye automáticamente mediante un flujo de trabajo agente en entorno aislado cuidadosamente diseñado, lo que permite una curación escalable sin anotación humana. DeNovoSWE se construye con la filosofía de "divide y vencerás" y de crítica y reparación. Para equilibrar la calidad y diversidad de los datos, introducimos además una estrategia de filtrado de trayectorias consciente de la dificultad. El ajuste fino de Qwen3-30B-A3B en DeNovoSWE mejora sustancialmente el rendimiento en ingeniería de software de horizonte prolongado, elevando su puntuación en el desafiante punto de referencia BeyondSWE-Doc2Repo del 5,8% al 47,2%.

English

As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce DeNovoSWE, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.