ChatPaper.aiChatPaper

daVinci-Env: Synthese offener SWE-Umgebungen im großen Maßstab

daVinci-Env: Open SWE Environment Synthesis at Scale

March 13, 2026
Autoren: Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu
cs.AI

Zusammenfassung

Die Ausbildung leistungsfähiger Software Engineering (SWE)-Agenten erfordert umfangreiche, ausführbare und verifizierbare Umgebungen, die dynamische Feedback-Schleifen für iteratives Code-Editing, Testausführung und Lösungsverfeinerung bieten. Bisherige Open-Source-Datensätze sind jedoch in ihrem Umfang und ihrer Repository-Vielfalt begrenzt, während industrielle Lösungen undurchsichtig sind und ihre Infrastruktur nicht veröffentlichen, was für die meisten akademischen Forschungsgruppen eine unüberwindbare Barriere darstellt. Wir präsentieren OpenSWE, den größten vollständig transparenten Framework für das Training von SWE-Agenten in Python. Er umfasst 45.320 ausführbare Docker-Umgebungen aus über 12.800 Repositories, wobei alle Dockerfiles, Evaluierungsskripte und die Infrastruktur vollständig quelloffen sind, um Reproduzierbarkeit zu gewährleisten. OpenSWE wurde durch eine Multi-Agenten-Synthese-Pipeline erstellt, die auf einem 64-Knoten-Distributed-Cluster eingesetzt wurde und die Repository-Erkundung, Dockerfile-Erstellung, Generierung von Evaluierungsskripten und iterative Testanalyse automatisiert. Über den Umfang hinaus schlagen wir eine qualitätszentrierte Filterpipeline vor, die die inhärente Schwierigkeit jeder Umgebung charakterisiert. Dabei werden unlösbare oder unzureichend herausfordernde Instanzen aussortiert und nur jene beibehalten, die die Lerneffizienz maximieren. Mit 891.000 US-Dollar für die Umgebungserstellung und weiteren 576.000 US-Dollar für Trajektorien-Sampling und schwierigkeitsgradbewusste Kuratierung repräsentiert das gesamte Projekt eine Gesamtinvestition von etwa 1,47 Millionen US-Dollar, was etwa 13.000 kuratierte Trajektorien aus rund 9.000 qualitätsgeprüften Umgebungen ergibt. Umfangreiche Experimente validieren die Wirksamkeit von OpenSWE: OpenSWE-32B und OpenSWE-72B erreichen 62,4 % bzw. 66,0 % auf SWE-bench Verified und etablieren damit State-of-the-Art unter den Qwen2.5-Serien. Darüber hinaus führt das SWE-zentrierte Training zu erheblichen Verbesserungen außerhalb der Domäne, einschließlich bis zu 12 Punkten beim mathematischen Reasoning und 5 Punkten bei wissenschaftlichen Benchmarks, ohne dass das Faktenabrufvermögen beeinträchtigt wird.
English
Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.
PDF303March 30, 2026