SWE-Universum: Schaal Verifieerbare Real-World Omgevingen tot Miljoenen
SWE-Universe: Scale Real-World Verifiable Environments to Millions
February 2, 2026
Auteurs: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui
cs.AI
Samenvatting
Wij stellen SWE-Universe voor, een schaalbare en efficiënte framework voor het automatisch construeren van real-world software engineering (SWE) verifieerbare omgevingen vanuit GitHub pull requests (PR's). Om de heersende uitdagingen van automatisch bouwen, zoals lage productieopbrengst, zwakke verifiers en verbiedende kosten, te overwinnen, maakt onze framework gebruik van een bouwagent aangedreven door een efficiënt, op maat getraind model. Deze agent hanteert iteratieve zelfverificatie en in-loop hackingdetectie om de betrouwbare generatie van hoogwaardige, verifieerbare taken te waarborgen. Met deze methode schalen we het aantal real-world meertalige SWE-omgevingen naar een miljoenenschaal (807.693). We demonstreren de diepgaande waarde van onze omgevingen via grootschalige agent-gebaseerde mid-training en reinforcement learning. Ten slotte hebben we deze techniek toegepast op Qwen3-Max-Thinking en behaalden een score van 75,3% op SWE-Bench Verified. Ons werk biedt zowel een kritieke hulpbron als een robuuste methodologie om de volgende generatie coderingsagenten vooruit te helpen.
English
We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.