Weltensimulation mit Video-Foundation-Modellen für physikalische KI
World Simulation with Video Foundation Models for Physical AI
October 28, 2025
papers.authors: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI
papers.abstract
Wir stellen [Cosmos-Predict2.5] vor, die neueste Generation der Cosmos World Foundation Models für Physical AI. Aufbauend auf einer flow-basierten Architektur vereint [Cosmos-Predict2.5] Text2World-, Image2World- und Video2World-Generierung in einem einzigen Modell und nutzt [Cosmos-Reason1], ein Physical AI-Vision-Language-Modell, um eine reichhaltigere Textverankerung und feinere Steuerung der Weltsimulation zu ermöglichen. Das Modell wurde mit 200 Millionen kuratierten Videoclips trainiert und durch reinforcement learning-basiertes Post-Training verfeinert. [Cosmos-Predict2.5] erzielt erhebliche Verbesserungen gegenüber [Cosmos-Predict1] in Bezug auf Videoqualität und Instruktionsbefolgung, wobei Modelle in 2B- und 14B-Größenordnungen veröffentlicht werden. Diese Fähigkeiten ermöglichen eine zuverlässigere synthetische Datengenerierung, Richtlinienbewertung und Closed-Loop-Simulation für Robotik und autonome Systeme. Wir erweitern die Familie weiter mit [Cosmos-Transfer2.5], einem Control-Net-artigen Framework für Sim2Real- und Real2Real-Welttranslation. Obwohl es 3,5-mal kleiner ist als [Cosmos-Transfer1], liefert es eine höhere Detailtreue und robuste Videogenerierung über lange Zeiträume. Gemeinsam etablieren diese Fortschritte [Cosmos-Predict2.5] und [Cosmos-Transfer2.5] als vielseitige Werkzeuge für die Skalierung verkörperter Intelligenz. Um Forschung und Einsatz von Physical AI zu beschleunigen, veröffentlichen wir den Quellcode, vortrainierte Checkpoints und kuratierte Benchmarks unter der NVIDIA Open Model License auf https://github.com/nvidia-cosmos/cosmos-predict2.5 und https://github.com/nvidia-cosmos/cosmos-transfer2.5. Wir hoffen, dass diese offenen Ressourcen die Einstiegshürden senken und Innovationen beim Aufbau der nächsten Generation verkörperter Intelligenz fördern.
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World
Foundation Models for Physical AI. Built on a flow-based architecture,
[Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation
in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language
model, to provide richer text grounding and finer control of world simulation.
Trained on 200M curated video clips and refined with reinforcement
learning-based post-training, [Cosmos-Predict2.5] achieves substantial
improvements over [Cosmos-Predict1] in video quality and instruction alignment,
with models released at 2B and 14B scales. These capabilities enable more
reliable synthetic data generation, policy evaluation, and closed-loop
simulation for robotics and autonomous systems. We further extend the family
with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and
Real2Real world translation. Despite being 3.5times smaller than
[Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video
generation. Together, these advances establish [Cosmos-Predict2.5] and
[Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To
accelerate research and deployment in Physical AI, we release source code,
pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model
License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and
https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open
resources lower the barrier to adoption and foster innovation in building the
next generation of embodied intelligence.