ChatPaper.aiChatPaper

SWE-Universe : Mettre à l'échelle des environnements vérifiables réalistes pour des millions d'utilisateurs

SWE-Universe: Scale Real-World Verifiable Environments to Millions

February 2, 2026
papers.authors: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui
cs.AI

papers.abstract

Nous proposons SWE-Universe, un cadre évolutif et efficace pour la construction automatique d'environnements vérifiables en génie logiciel (SWE) à partir de demandes de tirage (PR) GitHub. Pour surmonter les défis courants de la construction automatique, tels que le faible rendement de production, la faiblesse des vérificateurs et les coûts prohibitifs, notre cadre utilise un agent de construction alimenté par un modèle efficace entraîné sur mesure. Cet agent emploie une auto-vérification itérative et une détection de piratage en boucle pour assurer la génération fiable de tâches vérifiables de haute fidélité. En utilisant cette méthode, nous portons le nombre d'environnements SWE multilingues réels à l'échelle du million (807 693). Nous démontrons la valeur profonde de nos environnements grâce à un pré-entraînement agentique à grande échelle et à l'apprentissage par renforcement. Enfin, nous avons appliqué cette technique à Qwen3-Max-Thinking et obtenu un score de 75,3 % sur SWE-Bench Verified. Notre travail fournit à la fois une ressource critique et une méthodologie robuste pour faire progresser la prochaine génération d'agents de codage.
English
We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.
PDF562February 7, 2026