Simulador del Mundo con Modelos Fundamentales de Vídeo para la Inteligencia Artificial Física
World Simulation with Video Foundation Models for Physical AI
October 28, 2025
Autores: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI
Resumen
Presentamos [Cosmos-Predict2.5], la última generación de los Modelos Fundacionales del Mundo Cosmos para la Inteligencia Artificial Física. Basado en una arquitectura de flujo, [Cosmos-Predict2.5] unifica la generación de Texto-a-Mundo, Imagen-a-Mundo y Video-a-Mundo en un único modelo y aprovecha [Cosmos-Reason1], un modelo de visión y lenguaje para IA Física, para proporcionar una base textual más rica y un control más fino de la simulación del mundo. Entrenado con 200 millones de clips de video seleccionados y refinado con un post-entrenamiento basado en aprendizaje por refuerzo, [Cosmos-Predict2.5] logra mejoras sustanciales respecto a [Cosmos-Predict1] en calidad de video y alineación con instrucciones, con modelos publicados en escalas de 2B y 14B. Estas capacidades permiten una generación de datos sintéticos más confiable, evaluación de políticas y simulación de bucle cerrado para robótica y sistemas autónomos. Ampliamos además la familia con [Cosmos-Transfer2.5], un marco de trabajo estilo control-net para la traducción del mundo Sim2Real y Real2Real. A pesar de ser 3.5 veces más pequeño que [Cosmos-Transfer1], ofrece una generación de video de mayor fidelidad y robustez a largo horizonte. En conjunto, estos avances establecen a [Cosmos-Predict2.5] y [Cosmos-Transfer2.5] como herramientas versátiles para escalar la inteligencia embodada. Para acelerar la investigación y el despliegue en IA Física, publicamos el código fuente, puntos de control preentrenados y benchmarks seleccionados bajo la Licencia de Modelo Abierto de NVIDIA en https://github.com/nvidia-cosmos/cosmos-predict2.5 y https://github.com/nvidia-cosmos/cosmos-transfer2.5. Esperamos que estos recursos abiertos reduzcan las barreras de adopción y fomenten la innovación en la construcción de la próxima generación de inteligencia embodada.
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World
Foundation Models for Physical AI. Built on a flow-based architecture,
[Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation
in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language
model, to provide richer text grounding and finer control of world simulation.
Trained on 200M curated video clips and refined with reinforcement
learning-based post-training, [Cosmos-Predict2.5] achieves substantial
improvements over [Cosmos-Predict1] in video quality and instruction alignment,
with models released at 2B and 14B scales. These capabilities enable more
reliable synthetic data generation, policy evaluation, and closed-loop
simulation for robotics and autonomous systems. We further extend the family
with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and
Real2Real world translation. Despite being 3.5times smaller than
[Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video
generation. Together, these advances establish [Cosmos-Predict2.5] and
[Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To
accelerate research and deployment in Physical AI, we release source code,
pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model
License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and
https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open
resources lower the barrier to adoption and foster innovation in building the
next generation of embodied intelligence.