daVinci-Env: Synthese van Open SWE-omgevingen op Schaal
daVinci-Env: Open SWE Environment Synthesis at Scale
March 13, 2026
Auteurs: Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu
cs.AI
Samenvatting
Het trainen van capabele software engineering (SWE) agenten vereist grootschalige, uitvoerbare en verifieerbare omgevingen die dynamische feedbackloops bieden voor iteratieve codebewerking, testuitvoering en oplossingsverfijning. Bestaande open-source datasets blijven echter beperkt in schaal en repository-diversiteit, terwijl industriële oplossingen ondoorzichtig zijn met niet-vrijgegeven infrastructuur, wat een onneembare barrière vormt voor de meeste academische onderzoeksgroepen. Wij presenteren OpenSWE, het grootste volledig transparante framework voor SWE-agenttraining in Python, bestaande uit 45.320 uitvoerbare Docker-omgevingen verspreid over meer dan 12.8k repositories, waarbij alle Dockerfiles, evaluatiescripts en infrastructuur volledig open source zijn vrijgegeven voor reproduceerbaarheid. OpenSWE is gebouwd via een multi-agent synthesepijplijn ingezet over een gedistribueerd cluster van 64 nodes, dat repository-verkenning, Dockerfile-constructie, evaluatiescriptgeneratie en iteratieve testanalyse automatiseert. Naast schaal stellen we een kwaliteitsgerichte filterpijplijn voor die de inherente moeilijkheidsgraad van elke omgeving karakteriseert, waarbij onoplosbare of onvoldoende uitdagende instanties worden gefilterd en alleen die worden behouden die de leer efficiëntie maximaliseren. Met een investering van $891K in omgevingsconstructie en een aanvullende $576K in trajectbemonstering en moeilijkheidsbewuste curatie, vertegenwoordigt het gehele project een totale investering van ongeveer $1.47 miljoen, resulterend in ongeveer 13.000 gecureerde trajecten afkomstig van ruwweg 9.000 kwaliteitsgegarandeerde omgevingen. Uitgebreide experimenten valideren de effectiviteit van OpenSWE: OpenSWE-32B en OpenSWE-72B behalen respectievelijk 62.4% en 66.0% op SWE-bench Verified, waarmee ze state-of-the-art (SOTA) vestigen binnen de Qwen2.5-serie. Bovendien levert SWE-gerichte training substantiële verbeteringen op buiten het domein op, waaronder tot 12 punten op wiskundig redeneren en 5 punten op wetenschappelijke benchmarks, zonder afbreuk te doen aan feitelijke recall.
English
Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.