Raciocínio no Espaço por meio de Ancoragem no Mundo
Reasoning in Space via Grounding in the World
October 15, 2025
Autores: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI
Resumo
Neste artigo, afirmamos que a fundamentação visual 3D é a pedra angular do raciocínio espacial e introduzimos o Grounded-Spatial Reasoner (GS-Reasoner) para explorar as representações espaciais eficazes que preenchem a lacuna entre eles. Os modelos de linguagem 3D (LLMs) existentes sofrem com a ausência de uma representação 3D unificada capaz de capturar conjuntamente informações semânticas e geométricas. Essa deficiência se manifesta tanto no desempenho insatisfatório na fundamentação quanto em uma dependência excessiva de módulos externos, o que acaba dificultando a integração perfeita entre fundamentação e raciocínio espacial. Para resolver isso, propomos um mecanismo de pooling de duplo caminho simples, porém eficaz, que alinha rigorosamente características geométricas com pistas semânticas e posicionais, construindo uma representação 3D unificada baseada em patches de imagem que encapsula todas as informações essenciais sem aumentar o número de tokens de entrada. Aproveitando essa representação holística, o GS-Reasoner é o primeiro LLM 3D que alcança a fundamentação autoregressiva inteiramente sem módulos externos, ao mesmo tempo que oferece desempenho comparável aos modelos de última geração, estabelecendo um framework unificado e autossuficiente para o raciocínio espacial 3D. Para aproximar ainda mais a fundamentação e o raciocínio espacial, introduzimos o conjunto de dados Grounded Chain-of-Thought (GCoT). Esse conjunto de dados foi meticulosamente elaborado para incluir tanto anotações de caixas delimitadoras 3D para objetos referenciados em perguntas de raciocínio quanto caminhos de raciocínio passo a passo que integram a fundamentação como um componente central do processo de resolução de problemas. Experimentos extensivos demonstram que o GS-Reasoner alcança resultados impressionantes na fundamentação visual 3D, o que, por sua vez, melhora significativamente suas capacidades de raciocínio espacial, levando a um desempenho de ponta.
English
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that bridge the gap between them.
Existing 3D LLMs suffer from the absence of a unified 3D representation capable
of jointly capturing semantic and geometric information. This deficiency is
manifested either in poor performance on grounding or in an excessive reliance
on external modules, ultimately hindering the seamless integration of grounding
and spatial reasoning. To address this, we propose a simple yet effective
dual-path pooling mechanism that tightly aligns geometric features with both
semantic and positional cues, constructing a unified image patch-based 3D
representation that encapsulates all essential information without increasing
the number of input tokens. Leveraging this holistic representation,
GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely
without external modules while delivering performance comparable to
state-of-the-art models, establishing a unified and self-contained framework
for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we
introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is
meticulously curated to include both 3D bounding box annotations for objects
referenced in reasoning questions and step-by-step reasoning paths that
integrate grounding as a core component of the problem-solving process.
Extensive experiments demonstrate that GS-Reasoner achieves impressive results
on 3D visual grounding, which in turn significantly enhances its spatial
reasoning capabilities, leading to state-of-the-art performance.