ChatPaper.aiChatPaper

Wereldsimulatie met Videofundatiemodellen voor Fysieke Kunstmatige Intelligentie

World Simulation with Video Foundation Models for Physical AI

October 28, 2025
Auteurs: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI

Samenvatting

Wij introduceren [Cosmos-Predict2.5], de nieuwste generatie van de Cosmos World Foundation Models voor Physical AI. Gebaseerd op een flow-gebaseerde architectuur, verenigt [Cosmos-Predict2.5] Text2World-, Image2World- en Video2World-generatie in één enkel model en benut het [Cosmos-Reason1], een Physical AI vision-language model, voor rijkere tekstverankering en fijnere controle van wereldsimulatie. Getraind op 200 miljoen gecureerde videofragmenten en verfijnd met reinforcement learning-gebaseerde natreining, behaalt [Cosmos-Predict2.5] aanzienlijke verbeteringen ten opzichte van [Cosmos-Predict1] in videokwaliteit en instructievolging, waarbij modellen worden vrijgegeven op 2B- en 14B-schalen. Deze mogelijkheden maken betrouwbaardere synthetische datageneratie, beleidsevaluatie en gesloten-lus simulatie mogelijk voor robotica en autonome systemen. Wij breiden de familie verder uit met [Cosmos-Transfer2.5], een control-net-stijl raamwerk voor Sim2Real- en Real2Real-wereldvertaling. Hoewel het 3,5 keer kleiner is dan [Cosmos-Transfer1], levert het hogere nauwkeurigheid en robuuste lange-termijn videogeneratie. Gezamenlijk vestigen deze vooruitgangen [Cosmos-Predict2.5] en [Cosmos-Transfer2.5] als veelzijdige tools voor het schalen van belichaamde intelligentie. Om onderzoek en implementatie in Physical AI te versnellen, geven wij broncode, vooraf getrainde checkpoints en gecureerde benchmarks vrij onder de NVIDIA Open Model License op https://github.com/nvidia-cosmos/cosmos-predict2.5 en https://github.com/nvidia-cosmos/cosmos-transfer2.5. Wij hopen dat deze open bronnen de drempel voor adoptie verlagen en innovatie bevorderen bij het bouwen van de volgende generatie belichaamde intelligentie.
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World Foundation Models for Physical AI. Built on a flow-based architecture, [Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language model, to provide richer text grounding and finer control of world simulation. Trained on 200M curated video clips and refined with reinforcement learning-based post-training, [Cosmos-Predict2.5] achieves substantial improvements over [Cosmos-Predict1] in video quality and instruction alignment, with models released at 2B and 14B scales. These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems. We further extend the family with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and Real2Real world translation. Despite being 3.5times smaller than [Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video generation. Together, these advances establish [Cosmos-Predict2.5] and [Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To accelerate research and deployment in Physical AI, we release source code, pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open resources lower the barrier to adoption and foster innovation in building the next generation of embodied intelligence.
PDF401December 2, 2025