daVinci-Env: Sintesi di Ambienti SWE Aperti su Larga Scala
daVinci-Env: Open SWE Environment Synthesis at Scale
March 13, 2026
Autori: Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu
cs.AI
Abstract
L'addestramento di agenti capaci per l'ingegneria del software (SWE) richiede ambienti eseguibili, verificabili e su larga scala che forniscano cicli di feedback dinamici per la modifica iterativa del codice, l'esecuzione di test e l'affinamento delle soluzioni. Tuttavia, i dataset open-source esistenti rimangono limitati in termini di scala e diversità dei repository, mentre le soluzioni industriali sono opache con infrastrutture non rilasciate, creando una barriera proibitiva per la maggior parte dei gruppi di ricerca accademici. Presentiamo OpenSWE, il framework completamente trasparente più vasto per l'addestramento di agenti SWE in Python, comprendente 45.320 ambienti Docker eseguibili distribuiti su oltre 12.800 repository, con tutti i Dockerfile, gli script di valutazione e l'infrastruttura interamente open-source per garantire la riproducibilità. OpenSWE è costruito attraverso una pipeline di sintesi multi-agente implementata su un cluster distribuito di 64 nodi, automatizzando l'esplorazione dei repository, la costruzione dei Dockerfile, la generazione degli script di valutazione e l'analisi iterativa dei test. Oltre alla scala, proponiamo una pipeline di filtraggio incentrata sulla qualità che caratterizza la difficoltà intrinseca di ogni ambiente, scartando le istanze non risolvibili o insufficientemente impegnative e conservando solo quelle che massimizzano l'efficienza dell'apprendimento. Con 891K spesi per la costruzione degli ambienti e ulteriori 576K per il campionamento delle traiettorie e la cura basata sulla difficoltà, l'intero progetto rappresenta un investimento totale di circa 1,47 milioni di dollari, producendo circa 13.000 traiettorie curate da circa 9.000 ambienti con qualità garantita. Esperimenti estensivi convalidano l'efficacia di OpenSWE: OpenSWE-32B e OpenSWE-72B raggiungono rispettivamente il 62,4% e il 66,0% su SWE-bench Verified, stabilendo lo stato dell'arte tra la serie Qwen2.5. Inoltre, l'addestramento focalizzato su SWE produce sostanziali miglioramenti fuori dominio, inclusi fino a 12 punti nel ragionamento matematico e 5 punti su benchmark scientifici, senza degradare il richiamo fattuale.
English
Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.