물리적 AI를 위한 비디오 기반 모델 기반 세계 시뮬레이션
World Simulation with Video Foundation Models for Physical AI
October 28, 2025
저자: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu
cs.AI
초록
물리 AI를 위한 코스모스 월드 파운데이션 모델의 최신 세대인 [Cosmos-Predict2.5]를 소개합니다. 플로우 기반 아키텍처를 기반으로 구축된 [Cosmos-Predict2.5]는 Text2World, Image2World, Video2World 생성 기능을 단일 모델로 통합하고, 물리 AI 비전-언어 모델인 [Cosmos-Reason1]을 활용하여 더 풍부한 텍스트 기반 설명과 더 정교한 세계 시뮬레이션 제어를 제공합니다. 2억 개의 정제된 동영상 클립으로 학습되고 강화 학습 기반 사후 훈련으로 개선된 [Cosmos-Predict2.5]는 동영상 품질과 지시 사항 준수 측면에서 [Cosmos-Predict1] 대비 상당한 향상을 이루었으며, 20억 및 140억 규모의 모델이 공개됩니다. 이러한 능력은 로봇공학 및 자율 시스템을 위한 더 안정적인 합성 데이터 생성, 정책 평가 및 폐루프 시뮬레이션을 가능하게 합니다. 우리는 Sim2Real 및 Real2Real 세계 변환을 위한 컨트롤넷 스타일 프레임워크인 [Cosmos-Transfer2.5]를 추가로 공개하며 패밀리를 확장합니다. [Cosmos-Transfer1]보다 3.5배 작은 규모임에도 불구하고, 더 높은 정확도와 강력한 장기간 동영상 생성을 제공합니다. 이러한 발전을 통해 [Cosmos-Predict2.5]와 [Cosmos-Transfer2.5]는 구현형 지능 확장을 위한 다목적 도구로 자리매김합니다. 물리 AI 분야의 연구 및 배포 가속화를 위해 NVIDIA 오픈 모델 라이선스 하에 소스 코드, 사전 학습된 체크포인트 및 정제된 벤치마크를 https://github.com/nvidia-cosmos/cosmos-predict2.5와 https://github.com/nvidia-cosmos/cosmos-transfer2.5에서 공개합니다. 이러한 오픈 리소스가 차세대 구현형 지능 구축에 대한 접근 장벽을 낮추고 혁신을 촉진하기를 바랍니다.
English
We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World
Foundation Models for Physical AI. Built on a flow-based architecture,
[Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation
in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language
model, to provide richer text grounding and finer control of world simulation.
Trained on 200M curated video clips and refined with reinforcement
learning-based post-training, [Cosmos-Predict2.5] achieves substantial
improvements over [Cosmos-Predict1] in video quality and instruction alignment,
with models released at 2B and 14B scales. These capabilities enable more
reliable synthetic data generation, policy evaluation, and closed-loop
simulation for robotics and autonomous systems. We further extend the family
with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and
Real2Real world translation. Despite being 3.5times smaller than
[Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video
generation. Together, these advances establish [Cosmos-Predict2.5] and
[Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To
accelerate research and deployment in Physical AI, we release source code,
pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model
License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and
https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open
resources lower the barrier to adoption and foster innovation in building the
next generation of embodied intelligence.