Redeneren in de ruimte door verankering in de wereld
Reasoning in Space via Grounding in the World
October 15, 2025
Auteurs: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI
Samenvatting
In dit artikel stellen we dat 3D-visuele grounding de hoeksteen is van ruimtelijk redeneren en introduceren we de Grounded-Spatial Reasoner (GS-Reasoner) om effectieve ruimtelijke representaties te verkennen die de kloof tussen beide overbruggen. Bestaande 3D LLM's kampen met het ontbreken van een uniforme 3D-representatie die zowel semantische als geometrische informatie gezamenlijk kan vastleggen. Dit tekort uit zich ofwel in slechte prestaties op het gebied van grounding, ofwel in een overmatige afhankelijkheid van externe modules, wat uiteindelijk de naadloze integratie van grounding en ruimtelijk redeneren belemmert. Om dit aan te pakken, stellen we een eenvoudig maar effectief dual-path pooling-mechanisme voor dat geometrische kenmerken nauw afstemt op zowel semantische als positionele signalen, waardoor een uniforme op beeldpatches gebaseerde 3D-representatie wordt geconstrueerd die alle essentiële informatie omvat zonder het aantal invoertokens te verhogen. Door gebruik te maken van deze holistische representatie, is GS-Reasoner de eerste 3D LLM die volledig zonder externe modules autoregressieve grounding bereikt, terwijl het prestaties levert die vergelijkbaar zijn met state-of-the-art modellen, waarmee een uniform en zelfvoorzienend kader voor 3D-ruimtelijk redeneren wordt gevestigd. Om grounding en ruimtelijk redeneren verder te verbinden, introduceren we de Grounded Chain-of-Thought (GCoT) dataset. Deze dataset is zorgvuldig samengesteld om zowel 3D-boundingboxannotaties voor objecten die in redeneervragen worden genoemd, als stapsgewijze redeneerpaden te bevatten die grounding integreren als een kerncomponent van het probleemoplossingsproces. Uitgebreide experimenten tonen aan dat GS-Reasoner indrukwekkende resultaten behaalt op het gebied van 3D-visuele grounding, wat op zijn beurt zijn ruimtelijke redeneervaardigheden aanzienlijk verbetert, wat leidt tot state-of-the-art prestaties.
English
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that bridge the gap between them.
Existing 3D LLMs suffer from the absence of a unified 3D representation capable
of jointly capturing semantic and geometric information. This deficiency is
manifested either in poor performance on grounding or in an excessive reliance
on external modules, ultimately hindering the seamless integration of grounding
and spatial reasoning. To address this, we propose a simple yet effective
dual-path pooling mechanism that tightly aligns geometric features with both
semantic and positional cues, constructing a unified image patch-based 3D
representation that encapsulates all essential information without increasing
the number of input tokens. Leveraging this holistic representation,
GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely
without external modules while delivering performance comparable to
state-of-the-art models, establishing a unified and self-contained framework
for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we
introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is
meticulously curated to include both 3D bounding box annotations for objects
referenced in reasoning questions and step-by-step reasoning paths that
integrate grounding as a core component of the problem-solving process.
Extensive experiments demonstrate that GS-Reasoner achieves impressive results
on 3D visual grounding, which in turn significantly enhances its spatial
reasoning capabilities, leading to state-of-the-art performance.