세계에 기반을 둔 공간적 추론
Reasoning in Space via Grounding in the World
October 15, 2025
저자: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI
초록
본 논문에서 우리는 3D 시각적 그라운딩이 공간 추론의 초석이라고 주장하며, 이를 연결하는 효과적인 공간 표현을 탐구하기 위해 Grounded-Spatial Reasoner(GS-Reasoner)를 소개한다. 기존의 3D LLM(Large Language Models)은 의미론적 및 기하학적 정보를 동시에 포착할 수 있는 통합된 3D 표현의 부재로 인해 어려움을 겪고 있다. 이러한 결함은 그라운딩 성능의 저하 또는 외부 모듈에 대한 과도한 의존으로 나타나며, 궁극적으로 그라운딩과 공간 추론의 원활한 통합을 방해한다. 이를 해결하기 위해, 우리는 기하학적 특징을 의미론적 및 위치적 단서와 긴밀하게 정렬하는 간단하면서도 효과적인 이중 경로 풀링 메커니즘을 제안한다. 이 메커니즘은 입력 토큰 수를 증가시키지 않으면서도 모든 필수 정보를 포함하는 통합된 이미지 패치 기반 3D 표현을 구축한다. 이 통합된 표현을 활용하여, GS-Reasoner는 외부 모듈 없이도 자동회귀적 그라운딩을 달성한 최초의 3D LLM으로, 최신 모델과 견줄만한 성능을 보여주며 3D 공간 추론을 위한 통합적이고 자체 포함된 프레임워크를 확립한다. 그라운딩과 공간 추론을 더욱 연결하기 위해, 우리는 Grounded Chain-of-Thought(GCoT) 데이터셋을 소개한다. 이 데이터셋은 추론 질문에서 참조된 객체에 대한 3D 바운딩 박스 주석과 문제 해결 과정의 핵심 구성 요소로서 그라운딩을 통합한 단계별 추론 경로를 포함하도록 세심하게 구성되었다. 광범위한 실험을 통해 GS-Reasoner가 3D 시각적 그라운딩에서 인상적인 결과를 달성하며, 이는 공간 추론 능력을 크게 향상시켜 최신 기술 수준의 성능을 이끌어냄을 입증한다.
English
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that bridge the gap between them.
Existing 3D LLMs suffer from the absence of a unified 3D representation capable
of jointly capturing semantic and geometric information. This deficiency is
manifested either in poor performance on grounding or in an excessive reliance
on external modules, ultimately hindering the seamless integration of grounding
and spatial reasoning. To address this, we propose a simple yet effective
dual-path pooling mechanism that tightly aligns geometric features with both
semantic and positional cues, constructing a unified image patch-based 3D
representation that encapsulates all essential information without increasing
the number of input tokens. Leveraging this holistic representation,
GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely
without external modules while delivering performance comparable to
state-of-the-art models, establishing a unified and self-contained framework
for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we
introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is
meticulously curated to include both 3D bounding box annotations for objects
referenced in reasoning questions and step-by-step reasoning paths that
integrate grounding as a core component of the problem-solving process.
Extensive experiments demonstrate that GS-Reasoner achieves impressive results
on 3D visual grounding, which in turn significantly enhances its spatial
reasoning capabilities, leading to state-of-the-art performance.