Informe Técnico de Composer 2

Resumen

Composer 2 es un modelo especializado diseñado para la ingeniería de software agéntica. El modelo demuestra una sólida capacidad de planificación a largo plazo e inteligencia de codificación, manteniendo la habilidad de resolver problemas de manera eficiente para uso interactivo. El modelo se entrena en dos fases: primero, un preentrenamiento continuado para mejorar el conocimiento y la capacidad de codificación latente del modelo, seguido de un aprendizaje por refuerzo a gran escala para mejorar el rendimiento de codificación end-to-end mediante un razonamiento más fuerte, una ejecución precisa de múltiples pasos y coherencia en problemas de codificación realistas de largo horizonte. Desarrollamos infraestructura para soportar el entrenamiento en el mismo entorno Cursor utilizado por el modelo desplegado, con herramientas y estructura equivalentes, y utilizamos entornos que se ajustan estrechamente a problemas reales. Para medir la capacidad del modelo en tareas de dificultad creciente, introducimos un benchmark derivado de problemas reales de ingeniería de software en grandes bases de código, incluyendo las nuestras. Composer 2 es un modelo de codificación de nivel frontera y demuestra un proceso para entrenar modelos fuertemente especializados en un dominio. En nuestras evaluaciones CursorBench, el modelo logra una mejora importante en precisión en comparación con modelos Composer anteriores (61.3). En benchmarks públicos, el modelo obtiene una puntuación de 61.7 en Terminal-Bench y 73.7 en SWE-bench Multilingual en nuestro entorno, comparable a los sistemas state-of-the-art.

English

Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.

Informe Técnico de Composer 2

Composer 2 Technical Report

Resumen

Support