ChatPaper.aiChatPaper

SWE-Universe: Escalando Entornos Verificables del Mundo Real a Millones

SWE-Universe: Scale Real-World Verifiable Environments to Millions

February 2, 2026
Autores: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui
cs.AI

Resumen

Proponemos SWE-Universe, un marco escalable y eficiente para construir automáticamente entornos verificables de ingeniería de software (SWE) del mundo real a partir de pull requests (PRs) de GitHub. Para superar los desafíos prevalentes de la construcción automática, como el bajo rendimiento productivo, los verificadores débiles y el costo prohibitivo, nuestro marco utiliza un agente de construcción potenciado por un modelo eficiente entrenado a medida. Este agente emplea una auto-verificación iterativa y una detección de hacking en el bucle para garantizar la generación confiable de tareas verificables de alta fidelidad. Utilizando este método, escalamos la cantidad de entornos SWE multilingües del mundo real a una escala de millones (807.693). Demostramos el profundo valor de nuestros entornos mediante un entrenamiento intermedio agéntico a gran escala y aprendizaje por refuerzo. Finalmente, aplicamos esta técnica a Qwen3-Max-Thinking y logramos una puntuación del 75.3% en SWE-Bench Verified. Nuestro trabajo proporciona tanto un recurso crítico como una metodología robusta para avanzar en la próxima generación de agentes de codificación.
English
We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.
PDF562February 7, 2026