Рассуждения в пространстве через заземление в реальном мире
Reasoning in Space via Grounding in the World
October 15, 2025
Авторы: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
cs.AI
Аннотация
В данной статье мы утверждаем, что 3D-визуальное заземление является краеугольным камнем пространственного рассуждения и представляем Grounded-Spatial Reasoner (GS-Reasoner) для исследования эффективных пространственных представлений, которые устраняют разрыв между ними. Существующие 3D-языковые модели (LLM) страдают от отсутствия унифицированного 3D-представления, способного одновременно захватывать семантическую и геометрическую информацию. Этот недостаток проявляется либо в низкой производительности на задачах заземления, либо в чрезмерной зависимости от внешних модулей, что в конечном итоге препятствует бесшовной интеграции заземления и пространственного рассуждения. Для решения этой проблемы мы предлагаем простой, но эффективный механизм двойного пулинга, который тесно связывает геометрические признаки с семантическими и позиционными сигналами, создавая унифицированное 3D-представление на основе патчей изображений, которое инкапсулирует всю необходимую информацию без увеличения количества входных токенов. Используя это целостное представление, GS-Reasoner становится первой 3D-языковой моделью, которая достигает авторегрессивного заземления полностью без внешних модулей, демонстрируя производительность, сопоставимую с современными моделями, и устанавливая унифицированную и самодостаточную структуру для 3D-пространственного рассуждения. Для дальнейшего устранения разрыва между заземлением и пространственным рассуждением мы представляем набор данных Grounded Chain-of-Thought (GCoT). Этот набор данных тщательно отобран и включает как аннотации 3D-ограничивающих рамок для объектов, упомянутых в вопросах рассуждения, так и пошаговые пути рассуждения, которые интегрируют заземление как ключевой компонент процесса решения задач. Многочисленные эксперименты демонстрируют, что GS-Reasoner достигает впечатляющих результатов в 3D-визуальном заземлении, что, в свою очередь, значительно улучшает его способности к пространственному рассуждению, приводя к передовым показателям производительности.
English
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that bridge the gap between them.
Existing 3D LLMs suffer from the absence of a unified 3D representation capable
of jointly capturing semantic and geometric information. This deficiency is
manifested either in poor performance on grounding or in an excessive reliance
on external modules, ultimately hindering the seamless integration of grounding
and spatial reasoning. To address this, we propose a simple yet effective
dual-path pooling mechanism that tightly aligns geometric features with both
semantic and positional cues, constructing a unified image patch-based 3D
representation that encapsulates all essential information without increasing
the number of input tokens. Leveraging this holistic representation,
GS-Reasoner is the first 3D LLM that achieves autoregressive grounding entirely
without external modules while delivering performance comparable to
state-of-the-art models, establishing a unified and self-contained framework
for 3D spatial reasoning. To further bridge grounding and spatial reasoning, we
introduce the Grounded Chain-of-Thought (GCoT) dataset. This dataset is
meticulously curated to include both 3D bounding box annotations for objects
referenced in reasoning questions and step-by-step reasoning paths that
integrate grounding as a core component of the problem-solving process.
Extensive experiments demonstrate that GS-Reasoner achieves impressive results
on 3D visual grounding, which in turn significantly enhances its spatial
reasoning capabilities, leading to state-of-the-art performance.