Composer 2 技術報告書
Composer 2 Technical Report
March 25, 2026
著者: Cursor Research, Aaron Chan, Ahmed Shalaby, Alexander Wettig, Aman Sanger, Andrew Zhai, Anurag Ajay, Ashvin Nair, Charlie Snell, Chen Lu, Chen Shen, Emily Jia, Federico Cassano, Hanpeng Liu, Haoyu Chen, Henry Wildermuth, Jacob Jackson, Janet Li, Jediah Katz, Jiajun Yao, Joey Hejna, Josh Warner, Julius Vering, Kevin Frans, Lee Danilek, Less Wright, Lujing Cen, Luke Melas-Kyriazi, Michael Truell, Michiel de Jong, Naman Jain, Nate Schmidt, Nathan Wang, Niklas Muennighoff, Oleg Rybkin, Paul Loh, Phillip Kravtsov, Rishabh Yadav, Sahil Shah, Sam Kottler, Alexander M Rush, Shengtong Zhang, Shomil Jain, Sriram Sankar, Stefan Heule, Stuart H. Sul, Sualeh Asif, Victor Rong, Wanqi Zhu, William Lin, Yuchen Wu, Yuri Volkov, Yury Zemlyanskiy, Zack Holbrook, Zhiyuan Zhang
cs.AI
要旨
Composer 2は、エージェント型ソフトウェアエンジニアリング向けに設計された専門モデルです。このモデルは、長期的な計画立案とコーディング知能に優れた能力を示すと同時に、対話的な使用における問題解決を効率的に行う能力も維持しています。モデルのトレーニングは2段階で行われます。まず、モデルの知識と潜在的なコーディング能力を向上させるための継続事前学習を行い、その後、大規模な強化学習により、より強力な推論、正確なマルチステップ実行、長期的で現実的なコーディング問題への一貫性を通じて、エンドツーエンドのコーディングパフォーマンスを向上させます。本モデルは、デプロイ済みモデルが使用するのと同じCursorハーネス内で、同等のツールと構造を用いたトレーニングをサポートするインフラを構築し、実際の問題に極めて近い環境を使用しています。難易度が増すタスクにおけるモデルの能力を測定するため、自社の大規模コードベースを含む実際のソフトウェリエンジニアリング問題に基づくベンチマークを導入しました。Composer 2はフロンティアレベルのコーディングモデルであり、強力なドメイン特化モデルをトレーニングするプロセスを示しています。CursorBench評価では、前世代のComposerモデル(61.3)と比較して精度が大幅に向上しています。公開ベンチマークでは、Terminal-Benchで61.7、当社のハーネスにおけるSWE-bench Multilingualで73.7を記録し、最先端システムに匹敵する性能を発揮します。
English
Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.