Composer 2 Technisch Rapport

Samenvatting

Composer 2 is een gespecialiseerd model dat is ontworpen voor agent-gebaseerde software-engineering. Het model toont sterke lange-termijnplanning en codeerintelligentie, terwijl het het vermogen behoudt om efficiënt problemen op te lossen voor interactief gebruik. Het model wordt in twee fasen getraind: eerst een voortgezette voorafgaande training om de kennis en het latente codeervermogen van het model te verbeteren, gevolgd door grootschalige reinforcement learning om de end-to-end codeerprestaties te verbeteren door middel van sterker redeneren, nauwkeurige uitvoering in meerdere stappen en samenhang bij realistische codeerproblemen met een lange horizon. We ontwikkelen infrastructuur om training te ondersteunen in hetzelfde Cursor-framework dat wordt gebruikt door het geïmplementeerde model, met gelijkwaardige tools en structuur, en we gebruiken omgevingen die nauw aansluiten bij echte problemen. Om het vermogen van het model op steeds moeilijkere taken te meten, introduceren we een benchmark afgeleid van echte software-engineeringproblemen in grote codebasissen, inclusief onze eigen. Composer 2 is een grensverleggend codeermodel en demonstreert een proces voor het trainen van sterke, domeingespecialiseerde modellen. Op onze CursorBench-evaluaties behaalt het model een grote verbetering in nauwkeurigheid in vergelijking met eerdere Composer-modellen (61,3). Op openbare benchmarks scoort het model 61,7 op Terminal-Bench en 73,7 op SWE-bench Multilingual in ons framework, wat vergelijkbaar is met state-of-the-art systemen.

English

Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.

Composer 2 Technisch Rapport

Composer 2 Technical Report

Samenvatting

Support