ChatPaper.aiChatPaper

DeNovoSWE: ゼロからリポジトリ全体を生成するための長期環境のスケーリング

DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch

June 9, 2026
著者: Jiale Zhao, Guoxin Chen, Fanzhe Meng, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen, Kai Jia
cs.AI

要旨

LLMベースのコードエージェントの能力が向上するにつれて、期待される役割は既存コードベース内の局所的なバグ修正から、高レベルの仕様に基づく完全なソフトウェアリポジトリの設計・実装へと拡大しています。しかし、このような長期的なソフトウェアエンジニアリングタスク向けのエージェントを訓練することは、大規模で検証可能なリポジトリ全体生成データが不足しているため依然として困難です。本論文では、リポジトリ全体生成のための大規模データセットDeNovoSWEを紹介します。DeNovoSWEは4,818件の高品質インスタンスから構成され、各インスタンスはドキュメントから完全なリポジトリを生成することを要求します。このデータセットは、慎重に設計されたサンドボックス型エージェントワークフローを通じて自動的に構築され、人間によるアノテーションを必要とせずスケーラブルなキュレーションを実現します。DeNovoSWEは「分割統治」と「批評-修復」の哲学に基づいて構築されています。データ品質と多様性のバランスをとるため、さらに困難度を考慮した軌跡フィルタリング戦略を導入します。Qwen3-30B-A3BをDeNovoSWEでファインチューニングした結果、長期的なソフトウェアエンジニアリング性能が大幅に向上し、挑戦的なBeyondSWE-Doc2Repoベンチマークにおけるスコアが5.8%から47.2%に上昇しました。
English
As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce DeNovoSWE, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.