ChatPaper.aiChatPaper

daVinci-Env: Крупномасштабный синтез программных сред с открытым исходным кодом

daVinci-Env: Open SWE Environment Synthesis at Scale

March 13, 2026
Авторы: Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu
cs.AI

Аннотация

Обучение эффективных программных инженерных агентов требует масштабируемых, исполняемых и верифицируемых сред, которые обеспечивают динамические циклы обратной связи для итеративного редактирования кода, выполнения тестов и улучшения решений. Однако существующие открытые наборы данных остаются ограниченными по масштабу и разнообразию репозиториев, в то время как промышленные решения непрозрачны из-за неопубликованной инфраструктуры, создавая непреодолимый барьер для большинства академических исследовательских групп. Мы представляем OpenSWE — крупнейшую полностью прозрачную платформу для обучения SWE-агентов на Python, включающую 45 320 исполняемых Docker-сред, охватывающих более 12,8 тыс. репозиториев, со всеми Dockerfile, скриптами оценки и полностью открытой инфраструктурой для обеспечения воспроизводимости. OpenSWE построен с помощью многозадачного синтезирующего конвейера, развернутого в распределенном кластере из 64 узлов, автоматизирующего исследование репозиториев, построение Dockerfile, генерацию скриптов оценки и итеративный анализ тестов. Помимо масштаба, мы предлагаем конвейер фильтрации, ориентированный на качество, который характеризует inherent сложность каждой среды, отфильтровывая экземпляры, которые либо нерешаемы, либо недостаточно сложны, и сохраняя только те, которые максимизируют эффективность обучения. При затратах в 891 тыс. долларов на построение сред и дополнительных 576 тыс. долларов на сэмплирование траекторий и кураторство с учетом сложности, общие инвестиции в проект составили приблизительно 1,47 млн долларов, что позволило получить около 13 тыс. отобранных траекторий из примерно 9 тыс. сред с гарантированным качеством. Экстенсивные эксперименты подтверждают эффективность OpenSWE: модели OpenSWE-32B и OpenSWE-72B достигают 62,4% и 66,0% на SWE-bench Verified, устанавливая состояние искусства среди серии Qwen2.5. Более того, специализированное SWE-обучение дает существенное улучшение в других областях, включая до 12 пунктов на математических задачах и 5 пунктов на научных тестах, без ухудшения фактологического запоминания.
English
Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.
PDF303March 30, 2026