daVinci-Env: Síntese de Ambientes de Engenharia de Software Aberta em Escala

Resumo

O treinamento de agentes capazes em engenharia de software (SWE) exige ambientes executáveis e verificáveis em larga escala que forneçam ciclos de feedback dinâmicos para edição iterativa de código, execução de testes e refinamento de soluções. No entanto, os conjuntos de dados de código aberto existentes permanecem limitados em escala e diversidade de repositórios, enquanto as soluções industriais são opacas com infraestrutura não divulgada, criando uma barreira proibitiva para a maioria dos grupos de pesquisa acadêmica. Apresentamos o OpenSWE, a maior estrutura totalmente transparente para treinamento de agentes SWE em Python, compreendendo 45.320 ambientes Docker executáveis abrangendo mais de 12,8 mil repositórios, com todos os Dockerfiles, scripts de avaliação e infraestrutura totalmente de código aberto para reprodutibilidade. O OpenSWE é construído por meio de um pipeline de síntese multiagente implantado em um cluster distribuído de 64 nós, automatizando a exploração de repositórios, a construção de Dockerfiles, a geração de scripts de avaliação e a análise iterativa de testes. Além da escala, propomos um pipeline de filtragem centrado na qualidade que caracteriza a dificuldade inerente de cada ambiente, filtrando instâncias insolúveis ou insuficientemente desafiadoras e retendo apenas aquelas que maximizam a eficiência de aprendizado. Com US$ 891 mil gastos na construção do ambiente e US$ 576 mil adicionais na amostragem de trajetórias e curadoria com consciência de dificuldade, o projeto inteiro representa um investimento total de aproximadamente US$ 1,47 milhão, produzindo cerca de 13.000 trajetórias curadas de aproximadamente 9.000 ambientes com qualidade garantida. Experimentos extensivos validam a eficácia do OpenSWE: OpenSWE-32B e OpenSWE-72B atingem 62,4% e 66,0% no SWE-bench Verified, estabelecendo o estado da arte (SOTA) entre a série Qwen2.5. Além disso, o treinamento focado em SWE produz melhorias substanciais fora do domínio, incluindo até 12 pontos no raciocínio matemático e 5 pontos em benchmarks científicos, sem degradar a recordação factual.

English

Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.