ChatPaper.aiChatPaper

SWE-Universe: Масштабирование проверяемых сред реального мира до миллионов

SWE-Universe: Scale Real-World Verifiable Environments to Millions

February 2, 2026
Авторы: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui
cs.AI

Аннотация

Мы представляем SWE-Universe, масштабируемую и эффективную систему для автоматического построения верифицируемых сред реальной разработки программного обеспечения (SWE) из pull request'ов (PR) на GitHub. Чтобы преодолеть распространенные проблемы автоматизированного построения, такие как низкая производительность, слабые верификаторы и запретительно высокая стоимость, наша система использует агент сборки на основе эффективной специально обученной модели. Этот агент применяет итеративную самопроверку и обнаружение взлома в цикле для обеспечения надежной генерации высокоточных, верифицируемых задач. Используя этот метод, мы масштабировали количество реальных многоязычных сред SWE до миллионов (807 693). Мы демонстрируем глубокую ценность наших сред посредством крупномасштабного агентного промежуточного обучения и обучения с подкреплением. Наконец, мы применили эту технику к Qwen3-Max-Thinking и достигли результата в 75,3% на SWE-Bench Verified. Наша работа предоставляет как критически важный ресурс, так и надежную методологию для продвижения следующего поколения кодирующих агентов.
English
We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.
PDF562February 7, 2026