CWM: Ein Open-Weights-LLM für die Forschung zur Codegenerierung mit Weltmodellen

papers.abstract

Wir veröffentlichen Code World Model (CWM), ein Open-Weights-LLM mit 32 Milliarden Parametern, um die Forschung zur Code-Generierung mit Weltmodellen voranzutreiben. Um das Code-Verständnis über das hinaus zu verbessern, was allein durch das Training auf statischem Code erlernt werden kann, trainieren wir CWM mit einer großen Menge an Beobachtungs-Aktions-Trajektorien aus Python-Interpreter- und agentenbasierten Docker-Umgebungen und führen umfangreiches Multi-Task-Reasoning-RL in verifizierbaren Programmier-, Mathematik- und mehrstufigen Softwareentwicklungsumgebungen durch. Mit CWM bieten wir eine leistungsstarke Testumgebung für Forscher, um die Möglichkeiten zu erkunden, die Weltmodelle für die Verbesserung der Code-Generierung durch Reasoning und Planung in rechnerischen Umgebungen bieten. Wir präsentieren erste Schritte, wie Weltmodelle das agentenbasierte Programmieren unterstützen können, die schrittweise Simulation der Python-Code-Ausführung ermöglichen und zeigen frühe Ergebnisse, wie Reasoning von letzterem profitieren kann. CWM ist ein dichtes, ausschließlich dekodierendes LLM, das mit einer Kontextgröße von bis zu 131k Tokens trainiert wurde. Unabhängig von seinen Weltmodellierungsfähigkeiten bietet CWM eine starke Leistung bei allgemeinen Programmier- und Mathematikaufgaben: Es erreicht Pass@1-Werte von 65,8 % bei SWE-bench Verified (mit Testzeit-Skalierung), 68,6 % bei LiveCodeBench, 96,6 % bei Math-500 und 76,0 % bei AIME 2024. Um die weitere Forschung zur Code-Weltmodellierung zu unterstützen, veröffentlichen wir Modell-Checkpoints nach dem Mid-Training, SFT und RL.

English

We release Code World Model (CWM), a 32-billion-parameter open-weights LLM, to advance research on code generation with world models. To improve code understanding beyond what can be learned from training on static code alone, we mid-train CWM on a large amount of observation-action trajectories from Python interpreter and agentic Docker environments, and perform extensive multi-task reasoning RL in verifiable coding, math, and multi-turn software engineering environments. With CWM, we provide a strong testbed for researchers to explore the opportunities world modeling affords for improving code generation with reasoning and planning in computational environments. We present first steps of how world models can benefit agentic coding, enable step-by-step simulation of Python code execution, and show early results of how reasoning can benefit from the latter. CWM is a dense, decoder-only LLM trained with a context size of up to 131k tokens. Independent of its world modeling capabilities, CWM offers strong performance on general coding and math tasks: it reaches pass@1 scores of 65.8% on SWE-bench Verified (with test-time scaling), 68.6% on LiveCodeBench, 96.6% on Math-500, and 76.0% on AIME 2024. To support further research on code world modeling, we release model checkpoints after mid-training, SFT, and RL.

CWM: Ein Open-Weights-LLM für die Forschung zur Codegenerierung mit Weltmodellen

CWM: An Open-Weights LLM for Research on Code Generation with World Models

papers.abstract

Support