CWM: Um Modelo de Linguagem de Código Aberto para Pesquisa em Geração de Código com Modelos de Mundo
CWM: An Open-Weights LLM for Research on Code Generation with World Models
September 30, 2025
Autores: FAIR CodeGen team, Quentin Carbonneaux, Gal Cohen, Jonas Gehring, Jacob Kahn, Jannik Kossen, Felix Kreuk, Emily McMilin, Michel Meyer, Yuxiang Wei, David Zhang, Kunhao Zheng, Jordi Armengol-Estapé, Pedram Bashiri, Maximilian Beck, Pierre Chambon, Abhishek Charnalia, Chris Cummins, Juliette Decugis, Zacharias V. Fisches, François Fleuret, Fabian Gloeckle, Alex Gu, Michael Hassid, Daniel Haziza, Badr Youbi Idrissi, Christian Keller, Rahul Kindi, Hugh Leather, Gallil Maimon, Aram Markosyan, Francisco Massa, Pierre-Emmanuel Mazaré, Vegard Mella, Naila Murray, Keyur Muzumdar, Peter O'Hearn, Matteo Pagliardini, Dmitrii Pedchenko, Tal Remez, Volker Seeker, Marco Selvi, Oren Sultan, Sida Wang, Luca Wehrstedt, Ori Yoran, Lingming Zhang, Taco Cohen, Yossi Adi, Gabriel Synnaeve
cs.AI
Resumo
Lançamos o Code World Model (CWM), um modelo de linguagem de grande escala (LLM) de 32 bilhões de parâmetros com pesos abertos, para avançar a pesquisa em geração de código com modelos de mundo. Para melhorar a compreensão de código além do que pode ser aprendido apenas com treinamento em código estático, realizamos um treinamento intermediário do CWM em uma grande quantidade de trajetórias de observação-ação provenientes de interpretadores Python e ambientes Docker agentivos, além de executar um extenso raciocínio multi-tarefa com RL (Reinforcement Learning) em ambientes de codificação verificável, matemática e engenharia de software multi-turn. Com o CWM, oferecemos uma plataforma robusta para pesquisadores explorarem as oportunidades que a modelagem de mundo proporciona para melhorar a geração de código com raciocínio e planejamento em ambientes computacionais. Apresentamos os primeiros passos de como os modelos de mundo podem beneficiar a codificação agentiva, permitir a simulação passo a passo da execução de código Python e mostrar resultados iniciais de como o raciocínio pode se beneficiar disso. O CWM é um LLM denso, apenas decodificador, treinado com um tamanho de contexto de até 131 mil tokens. Independente de suas capacidades de modelagem de mundo, o CWM oferece um desempenho forte em tarefas gerais de codificação e matemática: ele alcança pontuações pass@1 de 65,8% no SWE-bench Verified (com escalonamento em tempo de teste), 68,6% no LiveCodeBench, 96,6% no Math-500 e 76,0% no AIME 2024. Para apoiar pesquisas adicionais em modelagem de mundo de código, disponibilizamos checkpoints do modelo após o treinamento intermediário, SFT (Supervised Fine-Tuning) e RL.
English
We release Code World Model (CWM), a 32-billion-parameter open-weights LLM,
to advance research on code generation with world models. To improve code
understanding beyond what can be learned from training on static code alone, we
mid-train CWM on a large amount of observation-action trajectories from Python
interpreter and agentic Docker environments, and perform extensive multi-task
reasoning RL in verifiable coding, math, and multi-turn software engineering
environments. With CWM, we provide a strong testbed for researchers to explore
the opportunities world modeling affords for improving code generation with
reasoning and planning in computational environments. We present first steps of
how world models can benefit agentic coding, enable step-by-step simulation of
Python code execution, and show early results of how reasoning can benefit from
the latter. CWM is a dense, decoder-only LLM trained with a context size of up
to 131k tokens. Independent of its world modeling capabilities, CWM offers
strong performance on general coding and math tasks: it reaches pass@1 scores
of 65.8% on SWE-bench Verified (with test-time scaling), 68.6% on
LiveCodeBench, 96.6% on Math-500, and 76.0% on AIME 2024. To support further
research on code world modeling, we release model checkpoints after
mid-training, SFT, and RL.