SWE-Universe: 実世界で検証可能な環境を数百万規模に拡張
SWE-Universe: Scale Real-World Verifiable Environments to Millions
February 2, 2026
著者: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui
cs.AI
要旨
我々は、GitHubのプルリクエストから実世界のソフトウェアエンジニアリング(SWE)検証環境を自動構築するためのスケーラブルで効率的なフレームワーク「SWE-Universe」を提案する。自動構築における低い生産性、弱い検証器、過剰なコストといった普遍的課題を克服するため、本フレームワークは効率的にカスタム訓練されたモデルを中核とする構築エージェントを採用する。このエージェントは反復的な自己検証とループ内ハッキング検出を駆使し、高精度な検証可能タスクの信頼性高い生成を保証する。本手法により、実世界の多言語SWE環境を百万規模(807,693件)まで拡張することに成功した。大規模なエージェント中間訓練と強化学習を通じて、当環境の顕著な価値を実証する。最終的に本技術をQwen3-Max-Thinkingに適用し、SWE-Bench Verifiedで75.3%のスコアを達成した。本研究は、次世代コーディングエージェントの発展に向けた重要なリソースと堅牢な方法論の両方を提供するものである。
English
We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.