CWM : Un modèle de langage à poids ouverts pour la recherche sur la génération de code avec des modèles du monde

papers.abstract

Nous publions Code World Model (CWM), un modèle de langage de grande taille (LLM) à 32 milliards de paramètres et à poids ouverts, afin de faire progresser la recherche sur la génération de code avec des modèles du monde. Pour améliorer la compréhension du code au-delà de ce qui peut être appris par l'entraînement sur du code statique seul, nous avons effectué un entraînement intermédiaire de CWM sur un grand nombre de trajectoires d'observation-action provenant d'interpréteurs Python et d'environnements Docker agentiques, et avons réalisé un raisonnement multi-tâches approfondi par apprentissage par renforcement (RL) dans des environnements de codage vérifiable, de mathématiques et d'ingénierie logicielle multi-tours. Avec CWM, nous offrons un banc d'essai solide pour que les chercheurs explorent les opportunités que la modélisation du monde offre pour améliorer la génération de code avec raisonnement et planification dans des environnements computationnels. Nous présentons les premières étapes montrant comment les modèles du monde peuvent bénéficier au codage agentique, permettre une simulation étape par étape de l'exécution de code Python, et montrons des résultats préliminaires sur la manière dont le raisonnement peut tirer parti de cette simulation. CWM est un LLM dense, de type décodeur uniquement, entraîné avec une taille de contexte allant jusqu'à 131 000 tokens. Indépendamment de ses capacités de modélisation du monde, CWM offre des performances solides sur des tâches générales de codage et de mathématiques : il atteint des scores pass@1 de 65,8 % sur SWE-bench Verified (avec mise à l'échelle au moment du test), 68,6 % sur LiveCodeBench, 96,6 % sur Math-500, et 76,0 % sur AIME 2024. Pour soutenir les recherches futures sur la modélisation du monde du code, nous publions les points de contrôle du modèle après l'entraînement intermédiaire, le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL).

English

We release Code World Model (CWM), a 32-billion-parameter open-weights LLM, to advance research on code generation with world models. To improve code understanding beyond what can be learned from training on static code alone, we mid-train CWM on a large amount of observation-action trajectories from Python interpreter and agentic Docker environments, and perform extensive multi-task reasoning RL in verifiable coding, math, and multi-turn software engineering environments. With CWM, we provide a strong testbed for researchers to explore the opportunities world modeling affords for improving code generation with reasoning and planning in computational environments. We present first steps of how world models can benefit agentic coding, enable step-by-step simulation of Python code execution, and show early results of how reasoning can benefit from the latter. CWM is a dense, decoder-only LLM trained with a context size of up to 131k tokens. Independent of its world modeling capabilities, CWM offers strong performance on general coding and math tasks: it reaches pass@1 scores of 65.8% on SWE-bench Verified (with test-time scaling), 68.6% on LiveCodeBench, 96.6% on Math-500, and 76.0% on AIME 2024. To support further research on code world modeling, we release model checkpoints after mid-training, SFT, and RL.

CWM : Un modèle de langage à poids ouverts pour la recherche sur la génération de code avec des modèles du monde

CWM: An Open-Weights LLM for Research on Code Generation with World Models

papers.abstract

Support