Cosmos-Transfer1: Geração Condicional de Mundos com Controle Multimodal Adaptativo
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control
March 18, 2025
Autores: NVIDIA, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng
cs.AI
Resumo
Apresentamos o Cosmos-Transfer, um modelo de geração condicional de mundos que pode gerar simulações de mundos com base em múltiplas entradas de controle espacial de várias modalidades, como segmentação, profundidade e bordas. No design, o esquema condicional espacial é adaptável e personalizável. Ele permite ponderar diferentes entradas condicionais de maneiras distintas em diferentes localizações espaciais. Isso possibilita uma geração de mundos altamente controlável e encontra aplicação em diversos casos de uso de transferência de mundo para mundo, incluindo Sim2Real. Realizamos avaliações extensas para analisar o modelo proposto e demonstrar suas aplicações para Inteligência Artificial Física, incluindo Sim2Real em robótica e enriquecimento de dados para veículos autônomos. Além disso, demonstramos uma estratégia de escalonamento de inferência para alcançar geração de mundos em tempo real com um rack NVIDIA GB200 NVL72. Para ajudar a acelerar o desenvolvimento de pesquisas na área, disponibilizamos nossos modelos e código em código aberto em https://github.com/nvidia-cosmos/cosmos-transfer1.
English
We introduce Cosmos-Transfer, a conditional world generation model that can
generate world simulations based on multiple spatial control inputs of various
modalities such as segmentation, depth, and edge. In the design, the spatial
conditional scheme is adaptive and customizable. It allows weighting different
conditional inputs differently at different spatial locations. This enables
highly controllable world generation and finds use in various world-to-world
transfer use cases, including Sim2Real. We conduct extensive evaluations to
analyze the proposed model and demonstrate its applications for Physical AI,
including robotics Sim2Real and autonomous vehicle data enrichment. We further
demonstrate an inference scaling strategy to achieve real-time world generation
with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the
field, we open-source our models and code at
https://github.com/nvidia-cosmos/cosmos-transfer1.Summary
AI-Generated Summary