daVinci-Env: Síntesis de Entornos de Ingeniería de Software Abiertos a Gran Escala

Resumen

El entrenamiento de agentes competentes en ingeniería de software (SWE) requiere entornos ejecutables y verificables a gran escala que proporcionen ciclos de retroalimentación dinámicos para la edición iterativa de código, la ejecución de pruebas y el refinamiento de soluciones. Sin embargo, los conjuntos de datos de código abierto existentes siguen siendo limitados en escala y diversidad de repositorios, mientras que las soluciones industriales son opacas, con infraestructura no publicada, lo que crea una barrera prohibitiva para la mayoría de los grupos de investigación académica. Presentamos OpenSWE, el marco completamente transparente más grande para el entrenamiento de agentes SWE en Python, que comprende 45.320 entornos Docker ejecutables que abarcan más de 12.8k repositorios, con todos los Dockerfiles, scripts de evaluación e infraestructura completamente de código abierto para garantizar la reproducibilidad. OpenSWE se construye mediante una canalización de síntesis multiagente desplegada en un clúster distribuido de 64 nodos, automatizando la exploración de repositorios, la construcción de Dockerfiles, la generación de scripts de evaluación y el análisis iterativo de pruebas. Más allá de la escala, proponemos una canalización de filtrado centrada en la calidad que caracteriza la dificultad inherente de cada entorno, filtrando las instancias que son irresolubles o insuficientemente desafiantes y conservando solo aquellas que maximizan la eficiencia del aprendizaje. Con un gasto de 891K en la construcción de entornos y 576K adicionales en el muestreo de trayectorias y la curación consciente de la dificultad, todo el proyecto representa una inversión total de aproximadamente 1.47 millones de dólares, produciendo alrededor de 13,000 trayectorias curadas de aproximadamente 9,000 entornos con calidad garantizada. Experimentos exhaustivos validan la efectividad de OpenSWE: OpenSWE-32B y OpenSWE-72B alcanzan un 62.4% y un 66.0% en SWE-bench Verified, estableciendo el estado del arte (SOTA) entre la serie Qwen2.5. Además, el entrenamiento centrado en SWE produce mejoras sustanciales fuera de dominio, incluyendo hasta 12 puntos en razonamiento matemático y 5 puntos en benchmarks científicos, sin degradar el recuerdo factual.

English

Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.

daVinci-Env: Síntesis de Entornos de Ingeniería de Software Abiertos a Gran Escala

daVinci-Env: Open SWE Environment Synthesis at Scale

Resumen

Support