ChatPaper.aiChatPaper

Cosmos-Transfer1: Условная генерация миров с адаптивным мультимодальным управлением

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

March 18, 2025
Авторы: NVIDIA, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng
cs.AI

Аннотация

Мы представляем Cosmos-Transfer — условную модель генерации миров, способную создавать симуляции на основе множества пространственных управляющих входных данных различных модальностей, таких как сегментация, глубина и границы. В нашей разработке пространственная условная схема является адаптивной и настраиваемой. Она позволяет по-разному взвешивать различные управляющие входные данные в разных пространственных точках. Это обеспечивает высокую степень управляемости при генерации миров и находит применение в различных сценариях переноса из мира в мир, включая Sim2Real. Мы проводим всесторонние оценки для анализа предложенной модели и демонстрируем её приложения в области Physical AI, включая Sim2Real для робототехники и обогащение данных для автономных транспортных средств. Кроме того, мы демонстрируем стратегию масштабирования вывода для достижения генерации миров в реальном времени с использованием стойки NVIDIA GB200 NVL72. Чтобы ускорить развитие исследований в этой области, мы открываем исходный код наших моделей и реализации на https://github.com/nvidia-cosmos/cosmos-transfer1.
English
We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.

Summary

AI-Generated Summary

PDF182March 19, 2025