daVinci-Env : Synthèse d'Environnements de Génie Logiciel Ouverts à Grande Échelle

Résumé

La formation d'agents compétents en génie logiciel nécessite des environnements à grande échelle, exécutables et vérifiables, offrant des boucles de rétroaction dynamiques pour l'édition itérative du code, l'exécution de tests et l'affinement des solutions. Cependant, les ensembles de données open-source existants restent limités en échelle et en diversité de dépôts, tandis que les solutions industrielles sont opaques avec des infrastructures non publiées, créant une barrière prohibitive pour la plupart des groupes de recherche académiques. Nous présentons OpenSWE, le cadre entièrement transparent le plus vaste pour l'entraînement d'agents en génie logiciel en Python, comprenant 45 320 environnements Docker exécutables couvrant plus de 12,8k dépôts, avec tous les Dockerfiles, scripts d'évaluation et infrastructures entièrement open-source pour la reproductibilité. OpenSWE est construit via un pipeline de synthèse multi-agents déployé sur un cluster distribué de 64 nœuds, automatisant l'exploration des dépôts, la construction des Dockerfiles, la génération de scripts d'évaluation et l'analyse itérative des tests. Au-delà de l'échelle, nous proposons un pipeline de filtrage axé sur la qualité qui caractérise la difficulté inhérente de chaque environnement, éliminant les instances soit insolubles soit insuffisamment difficiles et ne conservant que celles qui maximisent l'efficacité d'apprentissage. Avec 891k$ dépensés pour la construction des environnements et 576k$ supplémentaires pour l'échantillonnage de trajectoires et la curation basée sur la difficulté, le projet représente un investissement total d'environ 1,47 million de dollars, produisant environ 13 000 trajectoires curatées provenant de près de 9 000 environnements à qualité garantie. Des expérimentations approfondies valident l'efficacité d'OpenSWE : OpenSWE-32B et OpenSWE-72B atteignent respectivement 62,4% et 66,0% sur SWE-bench Verified, établissant un état de l'art parmi la série Qwen2.5. De plus, l'entraînement ciblé sur le génie logiciel produit des améliorations substantielles hors domaine, incluant jusqu'à 12 points sur le raisonnement mathématique et 5 points sur les benchmarks scientifiques, sans dégradation de la rappel factuel.

English

Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.

daVinci-Env : Synthèse d'Environnements de Génie Logiciel Ouverts à Grande Échelle

daVinci-Env: Open SWE Environment Synthesis at Scale

Résumé

Support