Cosmos-Transfer1:適応型マルチモーダル制御による条件付き世界生成
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control
March 18, 2025
著者: NVIDIA, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng
cs.AI
要旨
我々はCosmos-Transferを紹介する。これは、セグメンテーション、深度、エッジなど様々なモダリティの空間制御入力を基に世界シミュレーションを生成する条件付き世界生成モデルである。この設計において、空間的条件付けスキームは適応的かつカスタマイズ可能であり、異なる空間位置で異なる条件入力を異なる重みで扱うことを可能にする。これにより、高度に制御可能な世界生成が実現され、Sim2Realを含む様々な世界間転送ユースケースに活用される。我々は、提案モデルを分析し、ロボティクスのSim2Realや自動運転車のデータエンリッチメントを含むPhysical AIへの応用を示すために、広範な評価を実施した。さらに、NVIDIA GB200 NVL72ラックを用いてリアルタイム世界生成を実現する推論スケーリング戦略を実証する。この分野の研究開発を加速するため、我々はモデルとコードをhttps://github.com/nvidia-cosmos/cosmos-transfer1でオープンソース化した。
English
We introduce Cosmos-Transfer, a conditional world generation model that can
generate world simulations based on multiple spatial control inputs of various
modalities such as segmentation, depth, and edge. In the design, the spatial
conditional scheme is adaptive and customizable. It allows weighting different
conditional inputs differently at different spatial locations. This enables
highly controllable world generation and finds use in various world-to-world
transfer use cases, including Sim2Real. We conduct extensive evaluations to
analyze the proposed model and demonstrate its applications for Physical AI,
including robotics Sim2Real and autonomous vehicle data enrichment. We further
demonstrate an inference scaling strategy to achieve real-time world generation
with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the
field, we open-source our models and code at
https://github.com/nvidia-cosmos/cosmos-transfer1.Summary
AI-Generated Summary