物理的AIのためのビデオ基盤モデルによる世界シミュレーション
World Simulation with Video Foundation Models for Physical AI
October 28, 2025
著者: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI
要旨
我々は、Physical AIのためのCosmos World Foundation Modelsの最新世代である[Cosmos-Predict2.5]を紹介する。フローベースのアーキテクチャを基盤として構築された[Cosmos-Predict2.5]は、Text2World、Image2World、Video2World生成を単一モデルに統合し、Physical AI視覚言語モデルである[Cosmos-Reason1]を活用して、より豊富なテキスト接地と世界シミュレーションの精密な制御を実現する。2億の厳選された動画クリップで学習され、強化学習ベースの事後学習で洗練された[Cosmos-Predict2.5]は、動画品質と指示への適合性において[Cosmos-Predict1]を大幅に上回り、2Bおよび14Bスケールのモデルが公開されている。これらの能力により、ロボティクスと自律システムにおける、より信頼性の高い合成データ生成、ポリシー評価、閉ループシミュレーションが可能となる。さらに我々は、Sim2RealおよびReal2Realの世界変換のためのControlNetスタイルのフレームワークである[Cosmos-Transfer2.5]をファミリーに追加する。[Cosmos-Transfer1]よりも3.5倍小型化されているにもかかわらず、より高忠実度でロバストな長期動画生成を実現する。これらの進歩により、[Cosmos-Predict2.5]と[Cosmos-Transfer2.5]は具身化知能をスケールさせるための汎用的なツールとして確立された。Physical AIの研究と展開を加速させるため、ソースコード、事前学習済みチェックポイント、厳選されたベンチマークをNVIDIA Open Model Licenseの下でhttps://github.com/nvidia-cosmos/cosmos-predict2.5 および https://github.com/nvidia-cosmos/cosmos-transfer2.5 に公開する。これらのオープンリソースが採用の障壁を下げ、次世代の具身化知能構築における革新を促進することを期待する。
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World
Foundation Models for Physical AI. Built on a flow-based architecture,
[Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation
in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language
model, to provide richer text grounding and finer control of world simulation.
Trained on 200M curated video clips and refined with reinforcement
learning-based post-training, [Cosmos-Predict2.5] achieves substantial
improvements over [Cosmos-Predict1] in video quality and instruction alignment,
with models released at 2B and 14B scales. These capabilities enable more
reliable synthetic data generation, policy evaluation, and closed-loop
simulation for robotics and autonomous systems. We further extend the family
with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and
Real2Real world translation. Despite being 3.5times smaller than
[Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video
generation. Together, these advances establish [Cosmos-Predict2.5] and
[Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To
accelerate research and deployment in Physical AI, we release source code,
pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model
License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and
https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open
resources lower the barrier to adoption and foster innovation in building the
next generation of embodied intelligence.