ChatPaper.aiChatPaper

daVinci-Env:大規模オープンソフトウェア工学環境合成

daVinci-Env: Open SWE Environment Synthesis at Scale

March 13, 2026
著者: Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu
cs.AI

要旨

高性能なソフトウェアエンジニアリング(SWE)エージェントの訓練には、反復的なコード編集、テスト実行、ソリューション改良のための動的フィードバックループを提供する、大規模で実行可能かつ検証可能な環境が不可欠です。しかし、既存のオープンソースデータセットは規模とリポジトリ多様性に限界があり、産業界のソリューションは非公開のインフラで不透明なため、多くの学術研究グループにとって高い参入障壁となっています。本論文ではPython向けSWEエージェント訓練における最大規模の完全透明型フレームワーク「OpenSWE」を提案します。12.8k以上のリポジトリにまたがる45,320個の実行可能Docker環境を包含し、すべてのDockerfile、評価スクリプト、インフラを完全オープンソース化して再現性を確保しています。 OpenSWEは64ノード分散クラスター上で展開されたマルチエージェント合成パイプラインを通じて構築され、リポジトリ探索、Dockerfile構築、評価スクリプト生成、反復的テスト分析を自動化しています。規模面だけでなく、各環境の本質的難易度を特徴付け、解決不能または難易度不足のインスタンスをフィルタリングし、学習効率を最大化する環境のみを保持する品質重視のフィルタリングパイプラインを提案します。環境構築に89.1万ドル、軌道サンプリングと難易度考慮型選別にさらに57.6万ドルを投じ、総投資額約147万ドルで約9,000の品質保証環境から約13,000の精選軌道を生成しました。 大規模実験によりOpenSWEの有効性を検証:OpenSWE-32BとOpenSWE-72BはSWE-bench Verifiedで62.4%、66.0%を達成し、Qwen2.5シリーズにおいてSOTAを確立しました。さらに、SWE特化訓練はドメイン外でも顕著な改善をもたらし、数学的推論で最大12ポイント、科学分野ベンチマークで5ポイントの向上を達成しながら、事実想起能力の劣化を招きませんでした。
English
Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.
PDF303March 30, 2026