Cosmos-Transfer1: Условная генерация миров с адаптивным мультимодальным управлением
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control
March 18, 2025
Авторы: NVIDIA, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng
cs.AI
Аннотация
Мы представляем Cosmos-Transfer — условную модель генерации миров, способную создавать симуляции на основе множества пространственных управляющих входных данных различных модальностей, таких как сегментация, глубина и границы. В нашей разработке пространственная условная схема является адаптивной и настраиваемой. Она позволяет по-разному взвешивать различные управляющие входные данные в разных пространственных точках. Это обеспечивает высокую степень управляемости при генерации миров и находит применение в различных сценариях переноса из мира в мир, включая Sim2Real. Мы проводим всесторонние оценки для анализа предложенной модели и демонстрируем её приложения в области Physical AI, включая Sim2Real для робототехники и обогащение данных для автономных транспортных средств. Кроме того, мы демонстрируем стратегию масштабирования вывода для достижения генерации миров в реальном времени с использованием стойки NVIDIA GB200 NVL72. Чтобы ускорить развитие исследований в этой области, мы открываем исходный код наших моделей и реализации на https://github.com/nvidia-cosmos/cosmos-transfer1.
English
We introduce Cosmos-Transfer, a conditional world generation model that can
generate world simulations based on multiple spatial control inputs of various
modalities such as segmentation, depth, and edge. In the design, the spatial
conditional scheme is adaptive and customizable. It allows weighting different
conditional inputs differently at different spatial locations. This enables
highly controllable world generation and finds use in various world-to-world
transfer use cases, including Sim2Real. We conduct extensive evaluations to
analyze the proposed model and demonstrate its applications for Physical AI,
including robotics Sim2Real and autonomous vehicle data enrichment. We further
demonstrate an inference scaling strategy to achieve real-time world generation
with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the
field, we open-source our models and code at
https://github.com/nvidia-cosmos/cosmos-transfer1.Summary
AI-Generated Summary