ChatPaper.aiChatPaper

Simulation du Monde avec des Modèles Fondamentaux Vidéo pour l'IA Physique

World Simulation with Video Foundation Models for Physical AI

October 28, 2025
papers.authors: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI

papers.abstract

Nous présentons [Cosmos-Predict2.5], la dernière génération de modèles fondateurs mondiaux Cosmos pour l'IA physique. Basé sur une architecture flow-based, [Cosmos-Predict2.5] unifie la génération Text2World, Image2World et Video2World dans un modèle unique et exploite [Cosmos-Reason1], un modèle vision-langage d'IA physique, pour fournir un ancrage textuel plus riche et un contrôle plus fin de la simulation mondiale. Entraîné sur 200 millions de clips vidéo sélectionnés et affiné par post-entraînement à base d'apprentissage par renforcement, [Cosmos-Predict2.5] réalise des améliorations substantielles par rapport à [Cosmos-Predict1] en qualité vidéo et alignement instructionnel, avec des modèles publiés aux échelles 2B et 14B. Ces capacités permettent une génération de données synthétiques, une évaluation de politiques et une simulation en boucle fermée plus fiables pour la robotique et les systèmes autonomes. Nous étendons également la famille avec [Cosmos-Transfer2.5], un framework de type control-net pour la traduction mondiale Sim2Real et Real2Real. Bien qu'étant 3,5 fois plus petit que [Cosmos-Transfer1], il offre une génération vidéo à plus haute fidélité et robuste sur un horizon temporel long. Ensemble, ces avancées établissent [Cosmos-Predict2.5] et [Cosmos-Transfer2.5] comme des outils polyvalents pour la mise à l'échelle de l'intelligence incarnée. Pour accélérer la recherche et le déploiement en IA physique, nous publions le code source, les points de contrôle pré-entraînés et des benchmarks sous la licence NVIDIA Open Model License aux adresses https://github.com/nvidia-cosmos/cosmos-predict2.5 et https://github.com/nvidia-cosmos/cosmos-transfer2.5. Nous espérons que ces ressources ouvertes abaisseront les barrières à l'adoption et stimuleront l'innovation dans la construction de la prochaine génération d'intelligence incarnée.
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World Foundation Models for Physical AI. Built on a flow-based architecture, [Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language model, to provide richer text grounding and finer control of world simulation. Trained on 200M curated video clips and refined with reinforcement learning-based post-training, [Cosmos-Predict2.5] achieves substantial improvements over [Cosmos-Predict1] in video quality and instruction alignment, with models released at 2B and 14B scales. These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems. We further extend the family with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and Real2Real world translation. Despite being 3.5times smaller than [Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video generation. Together, these advances establish [Cosmos-Predict2.5] and [Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To accelerate research and deployment in Physical AI, we release source code, pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open resources lower the barrier to adoption and foster innovation in building the next generation of embodied intelligence.
PDF401January 19, 2026