ChatPaper.aiChatPaper

Cosmos-Transfer1 : Génération conditionnelle de mondes avec contrôle multimodal adaptatif

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

March 18, 2025
Auteurs: NVIDIA, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng
cs.AI

Résumé

Nous présentons Cosmos-Transfer, un modèle de génération conditionnelle de mondes capable de produire des simulations de mondes basées sur plusieurs entrées de contrôle spatial de différentes modalités, telles que la segmentation, la profondeur et les contours. Dans sa conception, le schéma de conditionnement spatial est adaptatif et personnalisable. Il permet de pondérer différemment les diverses entrées conditionnelles à différents emplacements spatiaux. Cela rend possible une génération de mondes hautement contrôlable et trouve son utilité dans divers cas d'utilisation de transfert de monde à monde, y compris Sim2Real. Nous menons des évaluations approfondies pour analyser le modèle proposé et démontrons ses applications pour l'IA Physique, incluant la simulation Sim2Real pour la robotique et l'enrichissement de données pour les véhicules autonomes. Nous démontrons également une stratégie de mise à l'échelle de l'inférence pour atteindre une génération de mondes en temps réel avec un rack NVIDIA GB200 NVL72. Pour accélérer le développement de la recherche dans ce domaine, nous mettons à disposition nos modèles et notre code en open-source sur https://github.com/nvidia-cosmos/cosmos-transfer1.
English
We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.

Summary

AI-Generated Summary

PDF182March 19, 2025