CWM: Een Open-Weights LLM voor Onderzoek naar Codegeneratie met Wereldmodellen

Samenvatting

We geven Code World Model (CWM) vrij, een open-gewichten LLM met 32 miljard parameters, om onderzoek naar codegeneratie met wereldmodellen te bevorderen. Om codebegrip te verbeteren verder dan wat alleen kan worden geleerd door training op statische code, mid-trainen we CWM op een grote hoeveelheid observatie-actie trajecten van Python-interpreter en agentische Docker-omgevingen, en voeren we uitgebreide multi-task redeneer-RL uit in verifieerbare coderings-, wiskunde- en multi-turn software engineering omgevingen. Met CWM bieden we een krachtige testomgeving voor onderzoekers om de mogelijkheden te verkennen die wereldmodellen bieden voor het verbeteren van codegeneratie met redeneren en plannen in computationele omgevingen. We presenteren eerste stappen van hoe wereldmodellen agentisch coderen kunnen bevorderen, stapsgewijze simulatie van Python-code-uitvoering mogelijk maken, en laten vroege resultaten zien van hoe redeneren kan profiteren van het laatste. CWM is een dicht, decoder-only LLM getraind met een contextgrootte van maximaal 131k tokens. Onafhankelijk van zijn wereldmodelleringscapaciteiten, biedt CWM sterke prestaties op algemene coderings- en wiskundetaken: het behaalt pass@1-scores van 65,8% op SWE-bench Verified (met test-time scaling), 68,6% op LiveCodeBench, 96,6% op Math-500, en 76,0% op AIME 2024. Om verder onderzoek naar code wereldmodellering te ondersteunen, geven we modelcheckpoints vrij na mid-training, SFT en RL.

English

We release Code World Model (CWM), a 32-billion-parameter open-weights LLM, to advance research on code generation with world models. To improve code understanding beyond what can be learned from training on static code alone, we mid-train CWM on a large amount of observation-action trajectories from Python interpreter and agentic Docker environments, and perform extensive multi-task reasoning RL in verifiable coding, math, and multi-turn software engineering environments. With CWM, we provide a strong testbed for researchers to explore the opportunities world modeling affords for improving code generation with reasoning and planning in computational environments. We present first steps of how world models can benefit agentic coding, enable step-by-step simulation of Python code execution, and show early results of how reasoning can benefit from the latter. CWM is a dense, decoder-only LLM trained with a context size of up to 131k tokens. Independent of its world modeling capabilities, CWM offers strong performance on general coding and math tasks: it reaches pass@1 scores of 65.8% on SWE-bench Verified (with test-time scaling), 68.6% on LiveCodeBench, 96.6% on Math-500, and 76.0% on AIME 2024. To support further research on code world modeling, we release model checkpoints after mid-training, SFT, and RL.

CWM: Een Open-Weights LLM voor Onderzoek naar Codegeneratie met Wereldmodellen

CWM: An Open-Weights LLM for Research on Code Generation with World Models

Samenvatting

Support