Technischer Bericht zu Composer 2

Zusammenfassung

Composer 2 ist ein spezialisiertes Modell, das für agentenbasierte Softwareentwicklung konzipiert ist. Das Modell zeichnet sich durch starke langfristige Planungsfähigkeiten und Programmierintelligenz aus und behält gleichzeitig die Fähigkeit, Probleme für interaktive Anwendungen effizient zu lösen. Das Modell wird in zwei Phasen trainiert: Zuerst erfolgt ein fortgesetztes Vortraining, um das Wissen und die latenten Programmierfähigkeiten des Modells zu verbessern, gefolgt von Reinforcement Learning im großen Maßstab, um die End-to-End-Programmierleistung durch stärkeres Reasoning, präzise mehrstufige Ausführung und Kohärenz bei langfristigen, realistischen Programmierproblemen zu steigern. Wir entwickeln eine Infrastruktur, um das Training in derselben Cursor-Umgebung zu unterstützen, die auch vom eingesetzten Modell genutzt wird, mit äquivalenten Tools und Strukturen, und verwenden Umgebungen, die realen Problemen sehr nahekommen. Um die Fähigkeiten des Modells bei zunehmend schwierigeren Aufgaben zu messen, führen wir einen Benchmark ein, der von realen Softwareentwicklungsproblemen in großen Codebasen, einschließlich unserer eigenen, abgeleitet ist. Composer 2 ist ein Coding-Modell auf Frontier-Niveau und demonstriert einen Prozess für das Training starker, domänenspezialisierter Modelle. In unseren CursorBench-Auswertungen erzielt das Modell eine deutliche Verbesserung der Genauigkeit im Vergleich zu früheren Composer-Modellen (61,3). Auf öffentlichen Benchmarks erreicht das Modell in unserer Testumgebung 61,7 Punkte auf Terminal-Bench und 73,7 Punkte auf SWE-bench Multilingual, was mit state-of-the-art-Systemen vergleichbar ist.

English

Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.

Technischer Bericht zu Composer 2

Composer 2 Technical Report

Zusammenfassung

Support