ChatPaper.aiChatPaper

Raisonner dans l'espace par ancrage dans le monde

Reasoning in Space via Grounding in the World

October 15, 2025
papers.authors: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI

papers.abstract

Dans cet article, nous affirmons que l'ancrage visuel 3D constitue la pierre angulaire du raisonnement spatial et introduisons le Grounded-Spatial Reasoner (GS-Reasoner) pour explorer les représentations spatiales efficaces qui comblent le fossé entre ces deux domaines. Les modèles de langage 3D existants souffrent de l'absence d'une représentation 3D unifiée capable de capturer conjointement les informations sémantiques et géométriques. Cette lacune se manifeste soit par de mauvaises performances en matière d'ancrage, soit par une dépendance excessive à des modules externes, entravant ainsi l'intégration fluide de l'ancrage et du raisonnement spatial. Pour remédier à cela, nous proposons un mécanisme de pooling à double voie simple mais efficace qui aligne étroitement les caractéristiques géométriques avec les indices sémantiques et positionnels, construisant ainsi une représentation 3D unifiée basée sur des patches d'image qui encapsule toutes les informations essentielles sans augmenter le nombre de tokens d'entrée. En s'appuyant sur cette représentation holistique, GS-Reasoner est le premier modèle de langage 3D à réaliser un ancrage autorégressif entièrement sans modules externes tout en offrant des performances comparables aux modèles de pointe, établissant ainsi un cadre unifié et autonome pour le raisonnement spatial 3D. Pour combler davantage le fossé entre l'ancrage et le raisonnement spatial, nous introduisons le jeu de données Grounded Chain-of-Thought (GCoT). Ce jeu de données est méticuleusement conçu pour inclure à la fois des annotations de boîtes englobantes 3D pour les objets référencés dans les questions de raisonnement et des chemins de raisonnement étape par étape qui intègrent l'ancrage comme composant central du processus de résolution de problèmes. Des expériences approfondies démontrent que GS-Reasoner obtient des résultats impressionnants en matière d'ancrage visuel 3D, ce qui améliore significativement ses capacités de raisonnement spatial, conduisant à des performances de pointe.
English
In this paper, we claim that 3D visual grounding is the cornerstone of spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to explore the effective spatial representations that bridge the gap between them. Existing 3D LLMs suffer from the absence of a unified 3D representation capable of jointly capturing semantic and geometric information. This deficiency is manifested either in poor performance on grounding or in an excessive reliance on external modules, ultimately hindering the seamless integration of grounding and spatial reasoning. To address this, we propose a simple yet effective dual-path pooling mechanism that tightly aligns geometric features with both semantic and positional cues, constructing a unified image patch-based 3D representation that encapsulates all essential information without increasing the number of input tokens. Leveraging this holistic representation, GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely without external modules while delivering performance comparable to state-of-the-art models, establishing a unified and self-contained framework for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is meticulously curated to include both 3D bounding box annotations for objects referenced in reasoning questions and step-by-step reasoning paths that integrate grounding as a core component of the problem-solving process. Extensive experiments demonstrate that GS-Reasoner achieves impressive results on 3D visual grounding, which in turn significantly enhances its spatial reasoning capabilities, leading to state-of-the-art performance.
PDF142October 16, 2025