ChatPaper.aiChatPaper

Simulação de Mundo com Modelos de Fundação de Vídeo para IA Física

World Simulation with Video Foundation Models for Physical AI

October 28, 2025
Autores: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI

Resumo

Apresentamos o [Cosmos-Predict2.5], a mais recente geração dos Modelos de Fundação Mundial Cosmos para IA Física. Construído sobre uma arquitetura baseada em fluxos, o [Cosmos-Predict2.5] unifica a geração Text2World, Image2World e Video2World em um único modelo e aproveita o [Cosmos-Reason1], um modelo de linguagem visual para IA Física, para fornecer uma ancoragem textual mais rica e um controle mais refinado da simulação mundial. Treinado em 200 milhões de clipes de vídeo selecionados e refinado com pós-treinamento baseado em aprendizado por reforço, o [Cosmos-Predict2.5] alcança melhorias substanciais em relação ao [Cosmos-Predict1] na qualidade do vídeo e no alinhamento com instruções, com modelos lançados nas escalas de 2B e 14B. Essas capacidades permitem uma geração de dados sintéticos mais confiável, avaliação de políticas e simulação de circuito fechado para robótica e sistemas autónomos. Ampliamos ainda mais a família com o [Cosmos-Transfer2.5], uma estrutura no estilo control-net para tradução mundial Sim2Real e Real2Real. Apesar de ser 3,5 vezes menor que o [Cosmos-Transfer1], ele oferece maior fidelidade e geração de vídeo robusta de longo horizonte. Juntos, esses avanços estabelecem o [Cosmos-Predict2.5] e o [Cosmos-Transfer2.5] como ferramentas versáteis para escalar a inteligência incorporada. Para acelerar a pesquisa e implantação em IA Física, disponibilizamos o código-fonte, *checkpoints* pré-treinados e *benchmarks* selecionados sob a Licença de Modelo Aberto da NVIDIA em https://github.com/nvidia-cosmos/cosmos-predict2.5 e https://github.com/nvidia-cosmos/cosmos-transfer2.5. Esperamos que esses recursos abertos reduzam as barreiras à adoção e promovam a inovação na construção da próxima geração de inteligência incorporada.
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World Foundation Models for Physical AI. Built on a flow-based architecture, [Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language model, to provide richer text grounding and finer control of world simulation. Trained on 200M curated video clips and refined with reinforcement learning-based post-training, [Cosmos-Predict2.5] achieves substantial improvements over [Cosmos-Predict1] in video quality and instruction alignment, with models released at 2B and 14B scales. These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems. We further extend the family with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and Real2Real world translation. Despite being 3.5times smaller than [Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video generation. Together, these advances establish [Cosmos-Predict2.5] and [Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To accelerate research and deployment in Physical AI, we release source code, pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open resources lower the barrier to adoption and foster innovation in building the next generation of embodied intelligence.
PDF441February 26, 2026