Schlussfolgern im Raum durch Verankerung in der Welt
Reasoning in Space via Grounding in the World
October 15, 2025
papers.authors: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI
papers.abstract
In diesem Artikel behaupten wir, dass 3D-Visual Grounding der Grundstein für räumliches Denken ist und stellen den Grounded-Spatial Reasoner (GS-Reasoner) vor, um effektive räumliche Repräsentationen zu erforschen, die die Lücke zwischen ihnen schließen. Bestehende 3D-LLMs leiden unter dem Fehlen einer einheitlichen 3D-Repräsentation, die sowohl semantische als auch geometrische Informationen gemeinsam erfassen kann. Dieser Mangel zeigt sich entweder in schlechter Leistung beim Grounding oder in einer übermäßigen Abhängigkeit von externen Modulen, was letztendlich die nahtlose Integration von Grounding und räumlichem Denken behindert. Um dies zu beheben, schlagen wir einen einfachen, aber effektiven Dual-Path-Pooling-Mechanismus vor, der geometrische Merkmale eng mit semantischen und positionsbezogenen Hinweisen abstimmt und so eine einheitliche, auf Bildpatches basierende 3D-Repräsentation konstruiert, die alle wesentlichen Informationen erfasst, ohne die Anzahl der Eingabe-Token zu erhöhen. Durch die Nutzung dieser ganzheitlichen Repräsentation ist GS-Reasoner das erste 3D-LLM, das autoregressives Grounding vollständig ohne externe Module erreicht und dabei eine Leistung erzielt, die mit state-of-the-art Modellen vergleichbar ist, wodurch ein einheitliches und eigenständiges Framework für 3D-räumliches Denken etabliert wird. Um Grounding und räumliches Denken weiter zu verbinden, führen wir den Grounded Chain-of-Thought (GCoT)-Datensatz ein. Dieser Datensatz wurde sorgfältig kuratiert, um sowohl 3D-Bounding-Box-Annotationen für Objekte, die in den Denkfragen referenziert werden, als auch schrittweise Denkpfade zu enthalten, die Grounding als Kernkomponente des Problemlösungsprozesses integrieren. Umfangreiche Experimente zeigen, dass GS-Reasoner beeindruckende Ergebnisse beim 3D-Visual Grounding erzielt, was wiederum seine Fähigkeiten im räumlichen Denken signifikant verbessert und zu state-of-the-art Leistungen führt.
English
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that bridge the gap between them.
Existing 3D LLMs suffer from the absence of a unified 3D representation capable
of jointly capturing semantic and geometric information. This deficiency is
manifested either in poor performance on grounding or in an excessive reliance
on external modules, ultimately hindering the seamless integration of grounding
and spatial reasoning. To address this, we propose a simple yet effective
dual-path pooling mechanism that tightly aligns geometric features with both
semantic and positional cues, constructing a unified image patch-based 3D
representation that encapsulates all essential information without increasing
the number of input tokens. Leveraging this holistic representation,
GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely
without external modules while delivering performance comparable to
state-of-the-art models, establishing a unified and self-contained framework
for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we
introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is
meticulously curated to include both 3D bounding box annotations for objects
referenced in reasoning questions and step-by-step reasoning paths that
integrate grounding as a core component of the problem-solving process.
Extensive experiments demonstrate that GS-Reasoner achieves impressive results
on 3D visual grounding, which in turn significantly enhances its spatial
reasoning capabilities, leading to state-of-the-art performance.