ChatPaper.aiChatPaper

N3D-VLM: Нативная 3D-привязка обеспечивает точное пространственное мышление в визуально-языковых моделях

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

December 18, 2025
Авторы: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI

Аннотация

Хотя современные мультимодальные модели способны отвечать на вопросы на основе двумерных изображений, они лишены внутреннего восприятия трехмерных объектов, что ограничивает их способность понимать пространственные отношения и глубину в 3D-сценах. В данной работе мы предлагаем N3D-VLM — новую унифицированную архитектуру, которая органично объединяет нативное восприятие 3D-объектов с трехмерным визуальным мышлением, обеспечивая как точную 3D-привязку, так и интерпретируемое пространственное понимание. В отличие от традиционных end-to-end моделей, напрямую предсказывающих ответы по RGB/RGB-D данным, наш подход наделяет модель врожденными способностями к восприятию трехмерных объектов, позволяя ей напрямую локализовывать объекты в 3D-пространстве на основе текстовых описаний. На основе точной 3D-локализации модель далее выполняет явные рассуждения в трехмерном пространстве, достигая более интерпретируемого и структурированного пространственного понимания. Для обеспечения надежного обучения этим способностям мы разработали масштабируемый конвейер построения данных, который использует оценку глубины для преобразования крупномасштабных 2D-аннотаций в 3D-пространство, значительно увеличивая разнообразие и охват данных для трехмерной привязки объектов — полученный набор данных более чем в шесть раз превосходит крупнейший существующий датасет 3D-детекции на одиночных изображениях. Кроме того, конвейер генерирует наборы данных с пространственными вопросами и ответами, ориентированные на цепочку рассуждений (Chain-of-Thought, CoT) в 3D, что способствует совместному обучению как 3D-локализации объектов, так и пространственному мышлению. Экспериментальные результаты демонстрируют, что наша унифицированная архитектура не только достигает state-of-the-art результатов в задачах 3D-привязки, но и последовательно превосходит существующие методы в области трехмерного пространственного мышления в моделях компьютерного зрения и естественного языка.
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.
PDF172December 20, 2025