空間における推論を世界への接地を通じて実現する
Reasoning in Space via Grounding in the World
October 15, 2025
著者: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI
要旨
本論文では、3D視覚的グラウンディングが空間推論の基盤であると主張し、それらの間のギャップを埋める効果的な空間表現を探求するためのGrounded-Spatial Reasoner(GS-Reasoner)を紹介します。既存の3D LLMは、意味情報と幾何学的情報を同時に捉える統一された3D表現の欠如に悩まされており、これはグラウンディングの性能の低さや外部モジュールへの過度な依存として現れ、グラウンディングと空間推論のシームレスな統合を妨げています。この問題に対処するため、我々は幾何学的特徴を意味的および位置的手がかりと密接に整合させるシンプルかつ効果的なデュアルパスプーリングメカニズムを提案し、入力トークンの数を増やすことなく全ての必須情報をカプセル化する統一された画像パッチベースの3D表現を構築します。この包括的な表現を活用することで、GS-Reasonerは外部モジュールを一切使用せずにオートリグレッシブなグラウンディングを達成する初めての3D LLMとなり、最先端モデルに匹敵する性能を発揮し、3D空間推論のための統一された自己完結型フレームワークを確立します。さらに、グラウンディングと空間推論の橋渡しをするため、Grounded Chain-of-Thought(GCoT)データセットを導入します。このデータセットは、推論問題で参照されるオブジェクトの3Dバウンディングボックスアノテーションと、グラウンディングを問題解決プロセスの核心的要素として統合した段階的な推論パスを含むように慎重にキュレーションされています。大規模な実験により、GS-Reasonerが3D視覚的グラウンディングで印象的な結果を達成し、それが空間推論能力を大幅に向上させ、最先端の性能を実現することが示されています。
English
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that bridge the gap between them.
Existing 3D LLMs suffer from the absence of a unified 3D representation capable
of jointly capturing semantic and geometric information. This deficiency is
manifested either in poor performance on grounding or in an excessive reliance
on external modules, ultimately hindering the seamless integration of grounding
and spatial reasoning. To address this, we propose a simple yet effective
dual-path pooling mechanism that tightly aligns geometric features with both
semantic and positional cues, constructing a unified image patch-based 3D
representation that encapsulates all essential information without increasing
the number of input tokens. Leveraging this holistic representation,
GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely
without external modules while delivering performance comparable to
state-of-the-art models, establishing a unified and self-contained framework
for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we
introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is
meticulously curated to include both 3D bounding box annotations for objects
referenced in reasoning questions and step-by-step reasoning paths that
integrate grounding as a core component of the problem-solving process.
Extensive experiments demonstrate that GS-Reasoner achieves impressive results
on 3D visual grounding, which in turn significantly enhances its spatial
reasoning capabilities, leading to state-of-the-art performance.