DeNovoSWE: Масштабирование долгосрочных сред для генерации полных репозиториев с нуля

Аннотация

По мере того как возможности агентов кода на основе LLM продолжают расти, их ожидаемая роль расширяется за пределы локализованного исправления ошибок в существующих кодовых базах в сторону проектирования и реализации полных программных репозиториев на основе высокоуровневых спецификаций. Однако обучение агентов таким долгосрочным задачам программной инженерии остается сложным из-за нехватки крупномасштабных, проверяемых данных для генерации целых репозиториев. В данной статье мы представляем DeNovoSWE — крупномасштабный набор данных для генерации целых репозиториев. DeNovoSWE содержит 4 818 высококачественных экземпляров, каждый из которых требует генерации полного репозитория на основе документации. Наш набор данных автоматически создается с помощью тщательно спроектированного изолированного агентного рабочего процесса, что обеспечивает масштабируемую курацию без участия человека. DeNovoSWE построен на философии «разделяй и властвуй» и критик-восстановления. Для баланса качества и разнообразия данных мы дополнительно вводим стратегию фильтрации траекторий с учетом сложности. Тонкая настройка Qwen3-30B-A3B на DeNovoSWE существенно улучшает долгосрочную производительность SWE, повышая его показатель на сложном бенчмарке BeyondSWE-Doc2Repo с 5,8% до 47,2%.

English

As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce DeNovoSWE, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.