CWM: Un modelo de lenguaje de código abierto para la investigación en generación de código con modelos del mundo
CWM: An Open-Weights LLM for Research on Code Generation with World Models
September 30, 2025
Autores: FAIR CodeGen team, Quentin Carbonneaux, Gal Cohen, Jonas Gehring, Jacob Kahn, Jannik Kossen, Felix Kreuk, Emily McMilin, Michel Meyer, Yuxiang Wei, David Zhang, Kunhao Zheng, Jordi Armengol-Estapé, Pedram Bashiri, Maximilian Beck, Pierre Chambon, Abhishek Charnalia, Chris Cummins, Juliette Decugis, Zacharias V. Fisches, François Fleuret, Fabian Gloeckle, Alex Gu, Michael Hassid, Daniel Haziza, Badr Youbi Idrissi, Christian Keller, Rahul Kindi, Hugh Leather, Gallil Maimon, Aram Markosyan, Francisco Massa, Pierre-Emmanuel Mazaré, Vegard Mella, Naila Murray, Keyur Muzumdar, Peter O'Hearn, Matteo Pagliardini, Dmitrii Pedchenko, Tal Remez, Volker Seeker, Marco Selvi, Oren Sultan, Sida Wang, Luca Wehrstedt, Ori Yoran, Lingming Zhang, Taco Cohen, Yossi Adi, Gabriel Synnaeve
cs.AI
Resumen
Lanzamos Code World Model (CWM), un modelo de lenguaje grande (LLM) de 32 mil millones de parámetros con pesos abiertos, para avanzar en la investigación sobre generación de código con modelos del mundo. Para mejorar la comprensión del código más allá de lo que se puede aprender únicamente del entrenamiento con código estático, realizamos un entrenamiento intermedio de CWM con una gran cantidad de trayectorias de observación-acción provenientes de entornos de intérprete de Python y Docker agentivos, y llevamos a cabo un razonamiento multitarea extensivo con aprendizaje por refuerzo (RL) en entornos verificables de codificación, matemáticas e ingeniería de software de múltiples pasos. Con CWM, ofrecemos una plataforma sólida para que los investigadores exploren las oportunidades que los modelos del mundo brindan para mejorar la generación de código mediante razonamiento y planificación en entornos computacionales. Presentamos los primeros pasos sobre cómo los modelos del mundo pueden beneficiar la codificación agentiva, permitir la simulación paso a paso de la ejecución de código Python y mostramos resultados preliminares de cómo el razonamiento puede beneficiarse de esto último. CWM es un LLM denso y exclusivamente decodificador, entrenado con un tamaño de contexto de hasta 131 mil tokens. Independientemente de sus capacidades de modelado del mundo, CWM ofrece un rendimiento sólido en tareas generales de codificación y matemáticas: alcanza puntajes pass@1 de 65.8% en SWE-bench Verified (con escalado en tiempo de prueba), 68.6% en LiveCodeBench, 96.6% en Math-500 y 76.0% en AIME 2024. Para apoyar futuras investigaciones sobre el modelado del mundo en código, publicamos puntos de control del modelo después del entrenamiento intermedio, SFT y RL.
English
We release Code World Model (CWM), a 32-billion-parameter open-weights LLM,
to advance research on code generation with world models. To improve code
understanding beyond what can be learned from training on static code alone, we
mid-train CWM on a large amount of observation-action trajectories from Python
interpreter and agentic Docker environments, and perform extensive multi-task
reasoning RL in verifiable coding, math, and multi-turn software engineering
environments. With CWM, we provide a strong testbed for researchers to explore
the opportunities world modeling affords for improving code generation with
reasoning and planning in computational environments. We present first steps of
how world models can benefit agentic coding, enable step-by-step simulation of
Python code execution, and show early results of how reasoning can benefit from
the latter. CWM is a dense, decoder-only LLM trained with a context size of up
to 131k tokens. Independent of its world modeling capabilities, CWM offers
strong performance on general coding and math tasks: it reaches pass@1 scores
of 65.8% on SWE-bench Verified (with test-time scaling), 68.6% on
LiveCodeBench, 96.6% on Math-500, and 76.0% on AIME 2024. To support further
research on code world modeling, we release model checkpoints after
mid-training, SFT, and RL.