ChatPaper.aiChatPaper

SWE-Universum: Skalierbare, verifizierbare Realweltsimulationen für Millionen

SWE-Universe: Scale Real-World Verifiable Environments to Millions

February 2, 2026
papers.authors: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui
cs.AI

papers.abstract

Wir stellen SWE-Universe vor, ein skalierbares und effizientes Framework zur automatischen Konstruktion verifizierbarer Software Engineering (SWE)-Umgebungen aus realen GitHub-Pull-Requests (PRs). Um die vorherrschenden Herausforderungen des automatischen Buildprozesses – wie geringe Produktionsausbeute, schwache Verifizierer und prohibitive Kosten – zu überwinden, nutzt unser Framework einen Build-Agenten, der von einem effizienten, speziell trainierten Modell angetrieben wird. Dieser Agent setzt iterative Selbstverifikation und In-Loop-Hacking-Erkennung ein, um die zuverlässige Generierung hochwertiger, verifizierbarer Aufgaben sicherzustellen. Mit dieser Methode skalieren wir die Anzahl realer, mehrsprachiger SWE-Umgebungen auf eine Million Einheiten (807.693). Wir demonstrieren den erheblichen Wert unserer Umgebungen durch groß angelegtes agentenbasiertes Mid-Training und Reinforcement Learning. Abschließend wendeten wir diese Technik auf Qwen3-Max-Thinking an und erzielten eine Bewertung von 75,3 % im SWE-Bench Verified. Unsere Arbeit liefert sowohl eine kritische Ressource als auch eine robuste Methodik, um die nächste Generation von Coding-Agenten voranzubringen.
English
We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.
PDF562February 7, 2026