ChatPaper.aiChatPaper

コスモス・ポリシー:ビジュオモーター制御と計画のためのビデオモデルのファインチューニング

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

January 22, 2026
著者: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu
cs.AI

要旨

近年のビデオ生成モデルは、複雑な物理的相互作用や時間経過に伴うシーンの変化を捉える顕著な能力を示している。こうした時空間的な事前知識を活用するため、ロボティクス研究ではビデオモデルを政策学習に適応させる試みがなされているが、行動生成のために学習後の複数段階や新たなアーキテクチャ構成を必要とするため、複雑さが増す傾向にある。本研究では、大規模な事前学習済みビデオモデル(Cosmos-Predict2)を、対象プラットフォームで収集したロボット実証データを用いた単一段階の学習後処理のみで効果的なロボット政策に変換する簡潔な手法「Cosmos Policy」を提案する。この手法では、アーキテクチャの変更を一切行わない。Cosmos Policyは、ビデオモデルの潜在拡散過程内で潜在フレームとして符号化されたロボット行動を直接生成することを学習し、モデルが持つ事前学習済みの事前知識と中核的な学習アルゴリズムを活用して複雑な行動分布を捉える。さらに、Cosmos Policyは同様に潜在フレームとして符号化された将来の状態画像と価値(期待累積報酬)も生成し、成功率の高い行動軌道のテスト時計画を可能にする。評価実験において、Cosmos PolicyはLIBEROおよびRoboCasaシミュレーションベンチマークでそれぞれ98.5%、67.1%の平均成功率というState-of-the-Art性能を達成し、困難な実世界の両手操作タスクでは最高平均スコアを記録した。これは、スクラッチから学習した強力な拡散政策、ビデオモデルベースの政策、同じロボット実証データでファインチューニングされたState-of-the-Artの視覚言語行動モデルを凌駕する結果である。さらに、政策のロールアウトデータが与えられると、Cosmos Policyは経験から学習して世界モデルと価値関数を改良し、モデルベース計画を活用することで、困難なタスクにおいてさらに高い成功率を達成できる。コード、モデル、学習データはhttps://research.nvidia.com/labs/dir/cosmos-policy/で公開している。
English
Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/
PDF61January 24, 2026