SWE-Universe: Escalonando Ambientes Verificáveis do Mundo Real para Milhões

Resumo

Propomos o SWE-Universe, uma estrutura escalável e eficiente para a construção automática de ambientes verificáveis de engenharia de software (SWE) do mundo real a partir de pull requests (PRs) do GitHub. Para superar os desafios prevalecentes da construção automática, como baixo rendimento de produção, verificadores fracos e custo proibitivo, nossa estrutura utiliza um agente de construção alimentado por um modelo eficiente e treinado sob medida. Este agente emprega autoverificação iterativa e detecção de hacking em loop para garantir a geração confiável de tarefas verificáveis de alta fidelidade. Usando este método, escalamos o número de ambientes SWE multilingues do mundo real para uma escala de milhões (807.693). Demonstramos o valor profundo dos nossos ambientes por meio de mid-training agentivo em larga escala e aprendizado por reforço. Por fim, aplicamos esta técnica ao Qwen3-Max-Thinking e alcançamos uma pontuação de 75,3% no SWE-Bench Verified. O nosso trabalho fornece tanto um recurso crítico quanto uma metodologia robusta para avançar a próxima geração de agentes de codificação.

English

We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.