Simulazione del Mondo con Modelli Fondazionali Video per l'Intelligenza Artificiale Fisica
World Simulation with Video Foundation Models for Physical AI
October 28, 2025
Autori: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI
Abstract
Introduciamo [Cosmos-Predict2.5], l'ultima generazione dei Modelli Fondamentali del Mondo Cosmos per l'Intelligenza Artificiale Fisica. Basato su un'architettura di tipo flow-based, [Cosmos-Predict2.5] unifica la generazione Text2World, Image2World e Video2World in un unico modello e sfrutta [Cosmos-Reason1], un modello visione-linguaggio per l'IA Fisica, per fornire una contestualizzazione testuale più ricca e un controllo più fine sulla simulazione del mondo. Addestrato su 200 milioni di clip video selezionati e raffinato con un post-addestramento basato su apprendimento per rinforzo, [Cosmos-Predict2.5] raggiunge miglioramenti sostanziali rispetto a [Cosmos-Predict1] nella qualità video e nell'allineamento alle istruzioni, con modelli rilasciati alle scale di 2B e 14B parametri. Queste capacità abilitano una generazione di dati sintetici, una valutazione delle policy e una simulazione a ciclo chiuso più affidabili per la robotica e i sistemi autonomi. Estendiamo ulteriormente la famiglia con [Cosmos-Transfer2.5], un framework in stile control-net per la traduzione del mondo Sim2Real e Real2Real. Nonostante sia 3,5 volte più piccolo di [Cosmos-Transfer1], offre una generazione video a lungo orizzonte con fedeltà superiore e robustezza. Nel complesso, questi progressi stabiliscono [Cosmos-Predict2.5] e [Cosmos-Transfer2.5] come strumenti versatili per lo scaling dell'intelligenza incarnata. Per accelerare la ricerca e lo sviluppo nell'IA Fisica, rilasciamo il codice sorgente, i checkpoint pre-addestrati e benchmark selezionati sotto la licenza NVIDIA Open Model License ai siti https://github.com/nvidia-cosmos/cosmos-predict2.5 e https://github.com/nvidia-cosmos/cosmos-transfer2.5. Speriamo che queste risorse open abbassino la barriera all'adozione e favoriscano l'innovazione nella costruzione della prossima generazione di intelligenza incarnata.
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World
Foundation Models for Physical AI. Built on a flow-based architecture,
[Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation
in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language
model, to provide richer text grounding and finer control of world simulation.
Trained on 200M curated video clips and refined with reinforcement
learning-based post-training, [Cosmos-Predict2.5] achieves substantial
improvements over [Cosmos-Predict1] in video quality and instruction alignment,
with models released at 2B and 14B scales. These capabilities enable more
reliable synthetic data generation, policy evaluation, and closed-loop
simulation for robotics and autonomous systems. We further extend the family
with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and
Real2Real world translation. Despite being 3.5times smaller than
[Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video
generation. Together, these advances establish [Cosmos-Predict2.5] and
[Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To
accelerate research and deployment in Physical AI, we release source code,
pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model
License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and
https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open
resources lower the barrier to adoption and foster innovation in building the
next generation of embodied intelligence.