SWE-Universe: Scalabilità di Ambienti Verificabili nel Mondo Reale su Scala di Milioni

Abstract

Proponiamo SWE-Universe, un framework scalabile ed efficiente per la costruzione automatica di ambienti di ingegneria del software (SWE) verificabili e realistici a partire dalle pull request (PR) di GitHub. Per superare le comuni sfide della costruzione automatica, come la bassa resa produttiva, verificatori deboli e costi proibitivi, il nostro framework utilizza un agente di costruzione basato su un modello efficiente addestrato su misura. Questo agente impiega un'auto-verifica iterativa e un rilevamento di hacking in-loop per garantire la generazione affidabile di task ad alta fedeltà e verificabili. Utilizzando questo metodo, abbiamo scalato il numero di ambienti SWE multilingue e realistici fino a un milione di unità (807.693). Dimostriamo il profondo valore dei nostri ambienti attraverso un mid-training agentico su larga scala e l'apprendimento per rinforzo. Infine, abbiamo applicato questa tecnica a Qwen3-Max-Thinking, raggiungendo un punteggio del 75,3% su SWE-Bench Verified. Il nostro lavoro fornisce sia una risorsa critica che una metodologia robusta per far progredire la prossima generazione di agenti di programmazione.

English

We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.

SWE-Universe: Scalabilità di Ambienti Verificabili nel Mondo Reale su Scala di Milioni

SWE-Universe: Scale Real-World Verifiable Environments to Millions

Abstract

Support