Relatório Técnico do Composer 2

Resumo

O Composer 2 é um modelo especializado projetado para engenharia de software agentiva. O modelo demonstra forte capacidade de planejamento de longo prazo e inteligência em codificação, mantendo a habilidade de resolver problemas de forma eficiente para uso interativo. O modelo é treinado em duas fases: primeiro, pré-treinamento contínuo para melhorar o conhecimento e a capacidade latente de codificação do modelo, seguido por aprendizado por reforço em larga escala para melhorar o desempenho de codificação end-to-end por meio de raciocínio mais forte, execução precisa de múltiplas etapas e coerência em problemas realistas de codificação de longo horizonte. Desenvolvemos infraestrutura para suportar o treinamento no mesmo ambiente Cursor utilizado pelo modelo implantado, com ferramentas e estrutura equivalentes, e usamos ambientes que correspondem de perto a problemas reais. Para medir a capacidade do modelo em tarefas progressivamente mais difíceis, introduzimos um benchmark derivado de problemas reais de engenharia de software em grandes bases de código, incluindo as nossas. O Composer 2 é um modelo de codificação de nível de fronteira e demonstra um processo para treinar modelos fortemente especializados em domínios. Em nossas avaliações do CursorBench, o modelo alcança uma grande melhoria na precisão em comparação com os modelos Composer anteriores (61,3). Em benchmarks públicos, o modelo obtém pontuação de 61,7 no Terminal-Bench e 73,7 no SWE-bench Multilingual em nosso ambiente, comparável aos sistemas state-of-the-art.

English

Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.