Rapport Technique de Composer 2

Résumé

Composer 2 est un modèle spécialisé conçu pour l'ingénierie logicielle agentique. Le modèle démontre de solides capacités de planification à long terme et d'intelligence en programmation, tout en conservant la capacité de résoudre efficacement des problèmes pour une utilisation interactive. Le modèle est entraîné en deux phases : d'abord, un pré-entraînement continu pour améliorer les connaissances et les capacités de codage latentes du modèle, suivi d'un apprentissage par renforcement à grande échelle pour améliorer les performances de codage de bout en bout grâce à un raisonnement plus robuste, une exécution précise multi-étapes et une cohérence sur des problèmes de codage réalistes à long horizon. Nous développons une infrastructure pour supporter l'entraînement dans le même environnement Cursor utilisé par le modèle déployé, avec des outils et une structure équivalents, et utilisons des environnements qui correspondent étroitement aux problèmes réels. Pour mesurer la capacité du modèle sur des tâches de difficulté croissante, nous introduisons un benchmark dérivé de problèmes réels d'ingénierie logicielle dans de grandes bases de code, y compris la nôtre. Composer 2 est un modèle de codage de niveau frontière et démontre un processus pour entraîner des modèles spécialisés performants dans un domaine. Sur nos évaluations CursorBench, le modèle obtient une amélioration majeure de la précision par rapport aux modèles Composer précédents (61,3). Sur les benchmarks publics, le modèle obtient un score de 61,7 sur Terminal-Bench et 73,7 sur SWE-bench Multilingual dans notre environnement, ce qui est comparable aux systèmes de pointe.

English

Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.

Rapport Technique de Composer 2

Composer 2 Technical Report

Résumé

Support