ChatPaper.aiChatPaper

코스모스-리즌1: 물리적 상식에서 체화된 추론으로

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

March 18, 2025
저자: NVIDIA, Alisson Azzolini, Hannah Brandon, Prithvijit Chattopadhyay, Huayu Chen, Jinju Chu, Yin Cui, Jenna Diamond, Yifan Ding, Francesco Ferroni, Rama Govindaraju, Jinwei Gu, Siddharth Gururani, Imad El Hanafi, Zekun Hao, Jacob Huffman, Jingyi Jin, Brendan Johnson, Rizwan Khan, George Kurian, Elena Lantz, Nayeon Lee, Zhaoshuo Li, Xuan Li, Tsung-Yi Lin, Yen-Chen Lin, Ming-Yu Liu, Andrew Mathau, Yun Ni, Lindsey Pavao, Wei Ping, David W. Romero, Misha Smelyanskiy, Shuran Song, Lyne Tchapmi, Andrew Z. Wang, Boxin Wang, Haoxiang Wang, Fangyin Wei, Jiashu Xu, Yao Xu, Xiaodong Yang, Zhuolin Yang, Xiaohui Zeng, Zhe Zhang
cs.AI

초록

물리적 AI 시스템은 물리적 세계를 인지하고 이해하며 복잡한 행동을 수행할 수 있어야 합니다. 본 논문에서는 물리적 세계를 이해하고 긴 사고 사슬 추론 과정을 통해 자연어로 적절한 구체화된 결정(예: 다음 단계 행동)을 생성할 수 있는 Cosmos-Reason1 모델을 제시합니다. 우리는 물리적 상식과 구체화된 추론에 초점을 맞춰 물리적 AI 추론을 위한 핵심 역량을 정의하는 것으로 시작합니다. 물리적 상식을 표현하기 위해 공간, 시간, 물리학에 대한 기본 지식을 포착하는 계층적 온톨로지를 사용합니다. 구체화된 추론을 위해 다양한 물리적 구현을 일반화하는 2차원 온톨로지를 활용합니다. 이러한 역량을 바탕으로 두 가지 멀티모달 대규모 언어 모델인 Cosmos-Reason1-8B와 Cosmos-Reason1-56B를 개발합니다. 우리는 데이터를 정제하고 모델을 네 단계로 학습시킵니다: 시각 사전 학습, 일반 지도 미세 조정(SFT), 물리적 AI SFT, 그리고 사후 학습으로서의 물리적 AI 강화 학습(RL). 모델을 평가하기 위해 우리의 온톨로지에 따라 물리적 상식과 구체화된 추론을 위한 포괄적인 벤치마크를 구축합니다. 평가 결과는 물리적 AI SFT와 강화 학습이 상당한 개선을 가져온다는 것을 보여줍니다. 물리적 AI 개발을 촉진하기 위해 우리는 코드와 사전 학습된 모델을 NVIDIA 오픈 모델 라이선스 하에 https://github.com/nvidia-cosmos/cosmos-reason1에서 공개할 예정입니다.
English
Physical AI systems need to perceive, understand, and perform complex actions in the physical world. In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e.g., next step action) in natural language through long chain-of-thought reasoning processes. We begin by defining key capabilities for Physical AI reasoning, with a focus on physical common sense and embodied reasoning. To represent physical common sense, we use a hierarchical ontology that captures fundamental knowledge about space, time, and physics. For embodied reasoning, we rely on a two-dimensional ontology that generalizes across different physical embodiments. Building on these capabilities, we develop two multimodal large language models, Cosmos-Reason1-8B and Cosmos-Reason1-56B. We curate data and train our models in four stages: vision pre-training, general supervised fine-tuning (SFT), Physical AI SFT, and Physical AI reinforcement learning (RL) as the post-training. To evaluate our models, we build comprehensive benchmarks for physical common sense and embodied reasoning according to our ontologies. Evaluation results show that Physical AI SFT and reinforcement learning bring significant improvements. To facilitate the development of Physical AI, we will make our code and pre-trained models available under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-reason1.

Summary

AI-Generated Summary

PDF462March 21, 2025