SWE-Universe: 검증 가능한 실세계 환경을 수백만 규모로 확장하기
SWE-Universe: Scale Real-World Verifiable Environments to Millions
February 2, 2026
저자: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui
cs.AI
초록
우리는 GitHub 풀 리퀘스트(PR)로부터 실제 소프트웨어 엔지니어링(SWE) 검증 환경을 자동으로 구축하기 위한 확장성 있고 효율적인 프레임워크인 SWE-Universe를 제안합니다. 낮은 생산성, 약한 검증기, 과도한 비용 등 자동 구축의 일반적인 과제를 극복하기 위해, 우리 프레임워크는 효율적으로 맞춤 학습된 모델로 구동되는 구축 에이전트를 활용합니다. 이 에이전트는 반복적 자체 검증 및 루프 내 해킹 탐지를 통해 높은 정확도를 가진 검증 가능한 작업의 신뢰할 수 있는 생성을 보장합니다. 이 방법을 사용하여 우리는 실제 다국어 SWE 환경의 수를 백만 규모(807,693개)로 확장했습니다. 대규모 에이전트 중간 학습 및 강화 학습을 통해 우리 환경의 심오한 가치를 입증합니다. 마지막으로, 이 기술을 Qwen3-Max-Thinking에 적용하여 SWE-Bench Verified에서 75.3%의 점수를 달성했습니다. 우리의 작업은 차세대 코딩 에이전트 발전을 위한 중요한 자원과 강력한 방법론을 모두 제공합니다.
English
We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.