Cosmos-Reason1: 物理的常識から身体化された推論へ
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning
March 18, 2025
著者: NVIDIA, Alisson Azzolini, Hannah Brandon, Prithvijit Chattopadhyay, Huayu Chen, Jinju Chu, Yin Cui, Jenna Diamond, Yifan Ding, Francesco Ferroni, Rama Govindaraju, Jinwei Gu, Siddharth Gururani, Imad El Hanafi, Zekun Hao, Jacob Huffman, Jingyi Jin, Brendan Johnson, Rizwan Khan, George Kurian, Elena Lantz, Nayeon Lee, Zhaoshuo Li, Xuan Li, Tsung-Yi Lin, Yen-Chen Lin, Ming-Yu Liu, Andrew Mathau, Yun Ni, Lindsey Pavao, Wei Ping, David W. Romero, Misha Smelyanskiy, Shuran Song, Lyne Tchapmi, Andrew Z. Wang, Boxin Wang, Haoxiang Wang, Fangyin Wei, Jiashu Xu, Yao Xu, Xiaodong Yang, Zhuolin Yang, Xiaohui Zeng, Zhe Zhang
cs.AI
要旨
物理AIシステムは、物理世界を認識し、理解し、複雑な行動を実行する必要があります。本論文では、物理世界を理解し、長い連鎖思考推論プロセスを通じて自然言語で適切な具身化された意思決定(例えば、次のステップの行動)を生成できるCosmos-Reason1モデルを紹介します。まず、物理AI推論の主要な能力を定義し、物理的常識と具身化推論に焦点を当てます。物理的常識を表現するために、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを使用します。具身化推論については、異なる物理的具現化を一般化する2次元オントロジーに依存します。これらの能力を基盤として、2つのマルチモーダル大規模言語モデル、Cosmos-Reason1-8BとCosmos-Reason1-56Bを開発します。データをキュレーションし、モデルを4つの段階でトレーニングします:視覚事前トレーニング、一般的な教師あり微調整(SFT)、物理AI SFT、およびポストトレーニングとしての物理AI強化学習(RL)。モデルを評価するために、オントロジーに基づいて物理的常識と具身化推論の包括的なベンチマークを構築します。評価結果は、物理AI SFTと強化学習が大幅な改善をもたらすことを示しています。物理AIの開発を促進するために、コードと事前トレーニング済みモデルをNVIDIA Open Model Licenseの下でhttps://github.com/nvidia-cosmos/cosmos-reason1で公開します。
English
Physical AI systems need to perceive, understand, and perform complex actions
in the physical world. In this paper, we present the Cosmos-Reason1 models that
can understand the physical world and generate appropriate embodied decisions
(e.g., next step action) in natural language through long chain-of-thought
reasoning processes. We begin by defining key capabilities for Physical AI
reasoning, with a focus on physical common sense and embodied reasoning. To
represent physical common sense, we use a hierarchical ontology that captures
fundamental knowledge about space, time, and physics. For embodied reasoning,
we rely on a two-dimensional ontology that generalizes across different
physical embodiments. Building on these capabilities, we develop two multimodal
large language models, Cosmos-Reason1-8B and Cosmos-Reason1-56B. We curate data
and train our models in four stages: vision pre-training, general supervised
fine-tuning (SFT), Physical AI SFT, and Physical AI reinforcement learning (RL)
as the post-training. To evaluate our models, we build comprehensive benchmarks
for physical common sense and embodied reasoning according to our ontologies.
Evaluation results show that Physical AI SFT and reinforcement learning bring
significant improvements. To facilitate the development of Physical AI, we will
make our code and pre-trained models available under the NVIDIA Open Model
License at https://github.com/nvidia-cosmos/cosmos-reason1.Summary
AI-Generated Summary