ChatPaper.aiChatPaper

CWM: コード生成と世界モデル研究のためのオープンウェイトLLM

CWM: An Open-Weights LLM for Research on Code Generation with World Models

September 30, 2025
著者: FAIR CodeGen team, Quentin Carbonneaux, Gal Cohen, Jonas Gehring, Jacob Kahn, Jannik Kossen, Felix Kreuk, Emily McMilin, Michel Meyer, Yuxiang Wei, David Zhang, Kunhao Zheng, Jordi Armengol-Estapé, Pedram Bashiri, Maximilian Beck, Pierre Chambon, Abhishek Charnalia, Chris Cummins, Juliette Decugis, Zacharias V. Fisches, François Fleuret, Fabian Gloeckle, Alex Gu, Michael Hassid, Daniel Haziza, Badr Youbi Idrissi, Christian Keller, Rahul Kindi, Hugh Leather, Gallil Maimon, Aram Markosyan, Francisco Massa, Pierre-Emmanuel Mazaré, Vegard Mella, Naila Murray, Keyur Muzumdar, Peter O'Hearn, Matteo Pagliardini, Dmitrii Pedchenko, Tal Remez, Volker Seeker, Marco Selvi, Oren Sultan, Sida Wang, Luca Wehrstedt, Ori Yoran, Lingming Zhang, Taco Cohen, Yossi Adi, Gabriel Synnaeve
cs.AI

要旨

我々は、コード生成におけるワールドモデルの研究を推進するため、320億パラメータのオープンウェイトLLMであるCode World Model (CWM)をリリースします。静的コードのみの学習では得られないコード理解を向上させるため、CWMをPythonインタプリタおよびエージェント型Docker環境からの大量の観測-行動軌跡で中間訓練し、検証可能なコーディング、数学、およびマルチターンソフトウェアエンジニアリング環境での広範なマルチタスク推論RLを実施しました。CWMを通じて、研究者が計算環境における推論と計画を用いたコード生成の改善にワールドモデリングが提供する機会を探るための強力なテストベッドを提供します。我々は、ワールドモデルがエージェント型コーディングにどのように役立つか、Pythonコード実行のステップバイステップシミュレーションを可能にするか、そして後者が推論にどのように役立つかの初期結果を示します。CWMは、最大131kトークンのコンテキストサイズで訓練された密なデコーダのみのLLMです。ワールドモデリング能力とは独立して、CWMは一般的なコーディングおよび数学タスクで強力な性能を発揮します:SWE-bench Verifiedでは65.8%(テストタイムスケーリングあり)、LiveCodeBenchでは68.6%、Math-500では96.6%、AIME 2024では76.0%のpass@1スコアを達成します。コードワールドモデリングのさらなる研究を支援するため、中間訓練、SFT、およびRL後のモデルチェックポイントを公開します。
English
We release Code World Model (CWM), a 32-billion-parameter open-weights LLM, to advance research on code generation with world models. To improve code understanding beyond what can be learned from training on static code alone, we mid-train CWM on a large amount of observation-action trajectories from Python interpreter and agentic Docker environments, and perform extensive multi-task reasoning RL in verifiable coding, math, and multi-turn software engineering environments. With CWM, we provide a strong testbed for researchers to explore the opportunities world modeling affords for improving code generation with reasoning and planning in computational environments. We present first steps of how world models can benefit agentic coding, enable step-by-step simulation of Python code execution, and show early results of how reasoning can benefit from the latter. CWM is a dense, decoder-only LLM trained with a context size of up to 131k tokens. Independent of its world modeling capabilities, CWM offers strong performance on general coding and math tasks: it reaches pass@1 scores of 65.8% on SWE-bench Verified (with test-time scaling), 68.6% on LiveCodeBench, 96.6% on Math-500, and 76.0% on AIME 2024. To support further research on code world modeling, we release model checkpoints after mid-training, SFT, and RL.
PDF02October 7, 2025