ChatPaper.aiChatPaper

daVinci-Env: 대규모 오픈 소프트웨어 엔지니어링 환경 합성

daVinci-Env: Open SWE Environment Synthesis at Scale

March 13, 2026
저자: Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu
cs.AI

초록

능력 있는 소프트웨어 엔지니어링(SWE) 에이전트를 훈련시키기 위해서는 반복적인 코드 수정, 테스트 실행 및 솔루션 개선을 위한 동적 피드백 루프를 제공하는 대규모의 실행 가능하고 검증 가능한 환경이 필요합니다. 그러나 기존 오픈소스 데이터셋은 규모와 저장소 다양성 측면에서 여전히 제한적이며, 산업계 솔루션은 공개되지 않은 인프라로 불투명하여 대부분의 학계 연구 그룹에게는 높은 진입 장벽으로 작용합니다. 본 논문은 Python 기반 SWE 에이전트 훈련을 위한 가장 크고 완전히 투명한 프레임워크인 OpenSWE를 제시합니다. OpenSWE는 12.8k개 이상의 저장소에 걸친 45,320개의 실행 가능한 Docker 환경으로 구성되며, 재현성을 위해 모든 Dockerfile, 평가 스크립트 및 인프라가 완전히 오픈소스로 공개됩니다. OpenSWE는 64노드 분산 클러스터에 배포된 다중 에이전트 합성 파이프라인을 통해 구축되어, 저장소 탐색, Dockerfile 구성, 평가 스크립트 생성 및 반복적 테스트 분석을 자동화합니다. 규모를 넘어, 우리는 각 환경의 고유한 난이도를 특성화하여 해결 불가능하거나 충분히 도전적이지 않은 인스턴스를 걸러내고 학습 효율성을 극대화하는 인스턴스만을 보유하는 질적 중심의 필터링 파이프라인을 제안합니다. 환경 구축에 891K, 궤적 샘플링 및 난이도 인지 큐레이션에 추가로 576K가 소요되어 전체 프로젝트는 약 147만 달러의 총 투자 규모를 나타내며, 약 9,000개의 질적 보증 환경에서 약 13,000개의 큐레이션된 궤적을 산출했습니다. 폭넓은 실험을 통해 OpenSWE의 효과성을 검증했습니다: OpenSWE-32B와 OpenSWE-72B는 SWE-bench Verified에서 각각 62.4%와 66.0%를 달성하여 Qwen2.5 시리즈 중 SOTA를 확립했습니다. 더 나아가, SWE 중심 훈련은 사실적 회상을 저하시키지 않으면서 수학적 추론에서 최대 12점, 과학 벤치마크에서 5점에 이르는 도메인 외 개선을 가져왔습니다.
English
Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With 891K spent on environment construction and an additional 576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.
PDF303March 30, 2026