ChatPaper.aiChatPaper

N3D-VLM: Native 3D-Verankerung ermöglicht präzises räumliches Schließen in Vision-Language-Modellen

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

December 18, 2025
papers.authors: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI

papers.abstract

Während aktuelle multimodale Modelle Fragen auf der Grundlage von 2D-Bildern beantworten können, fehlt ihnen eine intrinsische 3D-Objekterkennung, was ihre Fähigkeit einschränkt, räumliche Beziehungen und Tiefeninformationen in 3D-Szenen zu erfassen. In dieser Arbeit stellen wir N3D-VLM vor, einen neuartigen, vereinheitlichten Rahmen, der native 3D-Objekterkennung nahtlos mit 3D-bewusstem visuellem Schließen integriert und sowohl präzises 3D-Grounding als auch interpretierbares räumliches Verständnis ermöglicht. Im Gegensatz zu konventionellen End-to-End-Modellen, die Antworten direkt aus RGB- oder RGB-D-Eingaben vorhersagen, stattet unser Ansatz das Modell mit nativen 3D-Objekterkennungsfähigkeiten aus, die es ermöglichen, Objekte direkt im 3D-Raum auf der Grundlage textueller Beschreibungen zu lokalisieren. Aufbauend auf einer präzisen 3D-Objektlokalisierung führt das Modell weiterhin explizites Schließen in 3D durch, um ein interpretierbareres und strukturierteres räumliches Verständnis zu erreichen. Um eine robuste Ausbildung dieser Fähigkeiten zu unterstützen, entwickeln wir eine skalierbare Datenkonstruktions-Pipeline, die Tiefenschätzung nutzt, um großangelegte 2D-Annotationen in den 3D-Raum zu heben. Dies erhöht die Diversität und Abdeckung von 3D-Grounding-Daten erheblich und erzeugt einen Datensatz, der mehr als sechsmal größer ist als der größte bestehende Einzelbild-3D-Erkennungsdatensatz. Darüber hinaus generiert die Pipeline räumliche Frage-Antwort-Datensätze, die auf Chain-of-Thought (CoT)-Schlussfolgerungen in 3D abzielen und das gemeinsame Training für sowohl 3D-Objektlokalisierung als auch 3D-räumliches Schließen erleichtern. Experimentelle Ergebnisse zeigen, dass unser vereinheitlichter Rahmen nicht nur state-of-the-art Leistung in 3D-Grounding-Aufgaben erreicht, sondern auch bestehende Methoden im 3D-räumlichen Schließen in Vision-Language-Modellen konsistent übertrifft.
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.
PDF172December 20, 2025