ワールドコンパス:長期的世界モデルのための強化学習
WorldCompass: Reinforcement Learning for Long-Horizon World Models
February 9, 2026
著者: Zehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao
cs.AI
要旨
本論文では、長期的でインタラクティブなビデオベースの世界モデル向けに、新たな強化学習(RL)ポストトレーニングフレームワーク「WorldCompass」を提案する。このフレームワークは、インタラクション信号に基づいて世界モデルがより正確かつ一貫して世界を探索できるようにする。世界モデルの探索を効果的に「誘導」するために、自己回帰的ビデオ生成パラダイムに特化した三つの核心的革新を導入する:1)クリップ単位のロールアウト戦略:単一のターゲットクリップで複数のサンプルを生成・評価し、ロールアウト効率を大幅に向上させ、きめ細かい報酬信号を提供する。2)補完的報酬関数:インタラクション追従の正確性と視覚的品質の両方に対する報酬関数を設計し、直接的な監督を提供するとともに、報酬ハッキング行動を効果的に抑制する。3)効率的なRLアルゴリズム:負例を意識したファインチューニング戦略と様々な効率化最適を組み合わせ、モデルの能力を効率的かつ効果的に強化する。SoTAオープンソース世界モデル「WorldPlay」を用いた評価により、WorldCompassが様々なシナリオにおいてインタラクションの正確性と視覚的忠実度を大幅に改善することが実証された。
English
This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.