CWM: Un Modello Linguistico a Pesi Aperti per la Ricerca sulla Generazione di Codice con Modelli del Mondo

Abstract

Rilasciamo Code World Model (CWM), un LLM open-weights da 32 miliardi di parametri, per avanzare la ricerca sulla generazione di codice con modelli di mondo. Per migliorare la comprensione del codice oltre quanto può essere appreso dall'addestramento su codice statico, abbiamo sottoposto CWM a un mid-training su una grande quantità di traiettorie osservazione-azione provenienti da interpreti Python e ambienti Docker agentici, e abbiamo eseguito un'estesa ragionamento multi-task RL in ambienti di codifica verificabile, matematica e ingegneria del software multi-turn. Con CWM, forniamo un solido banco di prova per i ricercatori per esplorare le opportunità che la modellazione del mondo offre per migliorare la generazione di codice con ragionamento e pianificazione in ambienti computazionali. Presentiamo i primi passi su come i modelli di mondo possano beneficiare la codifica agentica, abilitare la simulazione passo-passo dell'esecuzione di codice Python, e mostriamo risultati preliminari su come il ragionamento possa trarre vantaggio da quest'ultimo. CWM è un LLM denso, solo decoder, addestrato con una dimensione di contesto fino a 131k token. Indipendentemente dalle sue capacità di modellazione del mondo, CWM offre prestazioni solide su compiti generali di codifica e matematica: raggiunge punteggi pass@1 del 65,8% su SWE-bench Verified (con scalatura al momento del test), 68,6% su LiveCodeBench, 96,6% su Math-500 e 76,0% su AIME 2024. Per supportare ulteriori ricerche sulla modellazione del mondo del codice, rilasciamo checkpoint del modello dopo mid-training, SFT e RL.

English

We release Code World Model (CWM), a 32-billion-parameter open-weights LLM, to advance research on code generation with world models. To improve code understanding beyond what can be learned from training on static code alone, we mid-train CWM on a large amount of observation-action trajectories from Python interpreter and agentic Docker environments, and perform extensive multi-task reasoning RL in verifiable coding, math, and multi-turn software engineering environments. With CWM, we provide a strong testbed for researchers to explore the opportunities world modeling affords for improving code generation with reasoning and planning in computational environments. We present first steps of how world models can benefit agentic coding, enable step-by-step simulation of Python code execution, and show early results of how reasoning can benefit from the latter. CWM is a dense, decoder-only LLM trained with a context size of up to 131k tokens. Independent of its world modeling capabilities, CWM offers strong performance on general coding and math tasks: it reaches pass@1 scores of 65.8% on SWE-bench Verified (with test-time scaling), 68.6% on LiveCodeBench, 96.6% on Math-500, and 76.0% on AIME 2024. To support further research on code world modeling, we release model checkpoints after mid-training, SFT, and RL.

CWM: Un Modello Linguistico a Pesi Aperti per la Ricerca sulla Generazione di Codice con Modelli del Mondo

CWM: An Open-Weights LLM for Research on Code Generation with World Models

Abstract

Support