컴포저 2 기술 보고서
Composer 2 Technical Report
March 25, 2026
저자: Cursor Research, Aaron Chan, Ahmed Shalaby, Alexander Wettig, Aman Sanger, Andrew Zhai, Anurag Ajay, Ashvin Nair, Charlie Snell, Chen Lu, Chen Shen, Emily Jia, Federico Cassano, Hanpeng Liu, Haoyu Chen, Henry Wildermuth, Jacob Jackson, Janet Li, Jediah Katz, Jiajun Yao, Joey Hejna, Josh Warner, Julius Vering, Kevin Frans, Lee Danilek, Less Wright, Lujing Cen, Luke Melas-Kyriazi, Michael Truell, Michiel de Jong, Naman Jain, Nate Schmidt, Nathan Wang, Niklas Muennighoff, Oleg Rybkin, Paul Loh, Phillip Kravtsov, Rishabh Yadav, Sahil Shah, Sam Kottler, Alexander M Rush, Shengtong Zhang, Shomil Jain, Sriram Sankar, Stefan Heule, Stuart H. Sul, Sualeh Asif, Victor Rong, Wanqi Zhu, William Lin, Yuchen Wu, Yuri Volkov, Yury Zemlyanskiy, Zack Holbrook, Zhiyuan Zhang
cs.AI
초록
Composer 2는 에이전트 기반 소프트웨어 엔지니어링을 위해 설계된 특화 모델입니다. 이 모델은 상호작용적 사용을 위한 문제를 효율적으로 해결하는 능력을 유지하면서도 강력한 장기 계획 수립 및 코딩 지능을 보여줍니다. 모델은 두 단계로 훈련됩니다. 먼저, 모델의 지식과 잠재적 코딩 능력을 향상시키기 위한 지속적 사전 훈련을 진행한 후, 대규모 강화 학습을 통해 더 강력한 추론, 정확한 다단계 실행, 그리고 장기적 현실적 코딩 문제에 대한 일관성을 갖춘 종단간 코딩 성능을 향상시킵니다. 우리는 배포된 모델이 사용하는 것과 동일한 도구 및 구조를 가진 Cursor 환경에서 훈련을 지원하고, 실제 문제와 밀접하게 일치하는 환경을 사용하는 인프라를 구축했습니다. 점점 더 어려워지는 작업에 대한 모델의 능력을 측정하기 위해, 우리 자신의 코드베이스를 포함한 대규모 코드베이스에서 발생하는 실제 소프트웨어 엔지니어링 문제에서 파생된 벤치마크를 도입했습니다. Composer 2는 최첨단 수준의 코딩 모델이며, 강력한 도메인 특화 모델을 훈련시키는 과정을 보여줍니다. CursorBench 평가에서 이 모델은 이전 Composer 모델(61.3) 대비 정확도에서 큰 향상을 달성했습니다. 공개 벤치마크에서 이 모델은 우리의 환경에서 Terminal-Bench 61.7점, SWE-bench Multilingual 73.7점을 기록하여 최첨단 시스템에 버금가는 성능을 보입니다.
English
Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.