3D-R1: 統合的なシーン理解のための3D視覚言語モデルの推論能力向上
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
July 31, 2025
著者: Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
要旨
大規模視覚言語モデル(VLMs)は2次元視覚理解タスクにおいて大きな進展を遂げており、これらの能力を3次元シーン理解に拡張することへの関心が高まっています。しかし、現在の3D VLMsは、高品質な空間データの制約や視点仮定の静的な性質により、堅牢な推論と一般化に苦戦しています。これらの課題に対処するため、我々は3D VLMsの推論能力を強化する基盤モデルである3D-R1を提案します。具体的には、まず既存の3D-VLデータセットとGemini 2.5 Proに基づくデータエンジンを活用し、CoT(Chain-of-Thought)を備えた高品質な合成データセット「Scene-30K」を構築します。これは3D-R1のコールドスタート初期化データとして機能します。さらに、強化学習のトレーニングプロセスにおいてGRPOなどのRLHF(Reinforcement Learning from Human Feedback)ポリシーを活用し、推論能力を強化します。また、検出精度と回答の意味的精度を維持するために、知覚報酬、意味的類似性報酬、フォーマット報酬の3つの報酬関数を導入します。さらに、3Dシーン理解において最も情報量の多い視点を適応的に選択する動的視点選択戦略を導入します。大規模な実験により、3D-R1がさまざまな3Dシーンベンチマークで平均10%の改善をもたらすことが示され、3Dシーン理解における推論と一般化の強化の有効性が強調されています。コード: https://github.com/AIGeeksGroup/3D-R1. ウェブサイト: https://aigeeksgroup.github.io/3D-R1.
English
Large vision-language models (VLMs) have made significant strides in 2D
visual understanding tasks, sparking interest in extending these capabilities
to 3D scene understanding. However, current 3D VLMs often struggle with robust
reasoning and generalization due to limitations in high-quality spatial data
and the static nature of viewpoint assumptions. To address these challenges, we
propose 3D-R1, a foundation model that enhances the reasoning capabilities of
3D VLMs. Specifically, we first construct a high-quality synthetic dataset with
CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine
based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1.
Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning
training process to enhance reasoning capabilities and introduce three reward
functions: a perception reward, a semantic similarity reward and a format
reward to maintain detection accuracy and answer semantic precision.
Furthermore, we introduce a dynamic view selection strategy that adaptively
chooses the most informative perspectives for 3D scene understanding. Extensive
experiments demonstrate that 3D-R1 delivers an average improvement of 10%
across various 3D scene benchmarks, highlighting its effectiveness in enhancing
reasoning and generalization in 3D scene understanding. Code:
https://github.com/AIGeeksGroup/3D-R1. Website:
https://aigeeksgroup.github.io/3D-R1.