Razonamiento en el espacio mediante la conexión con el mundo
Reasoning in Space via Grounding in the World
October 15, 2025
Autores: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI
Resumen
En este artículo, afirmamos que la fundamentación visual 3D es la piedra angular del razonamiento espacial y presentamos el Grounded-Spatial Reasoner (GS-Reasoner) para explorar las representaciones espaciales efectivas que cierran la brecha entre ambos. Los modelos de lenguaje grandes (LLM) 3D existentes adolecen de la ausencia de una representación 3D unificada capaz de capturar conjuntamente información semántica y geométrica. Esta deficiencia se manifiesta ya sea en un rendimiento deficiente en la fundamentación o en una dependencia excesiva de módulos externos, lo que finalmente obstaculiza la integración fluida de la fundamentación y el razonamiento espacial. Para abordar esto, proponemos un mecanismo de agrupación de doble vía simple pero efectivo que alinea estrechamente las características geométricas con señales tanto semánticas como posicionales, construyendo una representación 3D unificada basada en parches de imagen que encapsula toda la información esencial sin aumentar el número de tokens de entrada. Aprovechando esta representación holística, GS-Reasoner es el primer LLM 3D que logra una fundamentación autoregresiva completamente sin módulos externos, ofreciendo un rendimiento comparable a los modelos más avanzados y estableciendo un marco unificado y autónomo para el razonamiento espacial 3D. Para cerrar aún más la brecha entre la fundamentación y el razonamiento espacial, presentamos el conjunto de datos Grounded Chain-of-Thought (GCoT). Este conjunto de datos está meticulosamente curado para incluir tanto anotaciones de cajas delimitadoras 3D para objetos referenciados en preguntas de razonamiento como rutas de razonamiento paso a paso que integran la fundamentación como un componente central del proceso de resolución de problemas. Experimentos exhaustivos demuestran que GS-Reasoner logra resultados impresionantes en la fundamentación visual 3D, lo que a su vez mejora significativamente sus capacidades de razonamiento espacial, alcanzando un rendimiento de vanguardia.
English
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that bridge the gap between them.
Existing 3D LLMs suffer from the absence of a unified 3D representation capable
of jointly capturing semantic and geometric information. This deficiency is
manifested either in poor performance on grounding or in an excessive reliance
on external modules, ultimately hindering the seamless integration of grounding
and spatial reasoning. To address this, we propose a simple yet effective
dual-path pooling mechanism that tightly aligns geometric features with both
semantic and positional cues, constructing a unified image patch-based 3D
representation that encapsulates all essential information without increasing
the number of input tokens. Leveraging this holistic representation,
GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely
without external modules while delivering performance comparable to
state-of-the-art models, establishing a unified and self-contained framework
for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we
introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is
meticulously curated to include both 3D bounding box annotations for objects
referenced in reasoning questions and step-by-step reasoning paths that
integrate grounding as a core component of the problem-solving process.
Extensive experiments demonstrate that GS-Reasoner achieves impressive results
on 3D visual grounding, which in turn significantly enhances its spatial
reasoning capabilities, leading to state-of-the-art performance.