ChatPaper.aiChatPaper

N3D-VLM: Native 3D-verankering maakt nauwkeurige ruimtelijke redenering mogelijk in visie-taalmodellen

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

December 18, 2025
Auteurs: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI

Samenvatting

Hoewel huidige multimodale modellen vragen kunnen beantwoorden op basis van 2D-beelden, ontbreekt het hen aan intrinsiek 3D-objectperceptie, wat hun vermogen beperkt om ruimtelijke relaties en dieptesignalen in 3D-scènes te begrijpen. In dit werk stellen we N3D-VLM voor, een nieuw unified framework dat naadloos native 3D-objectperceptie integreert met 3D-bewust visueel redeneren, waardoor zowel precieze 3D-gronding als interpreteerbaar ruimtelijk begrip mogelijk wordt. In tegenstelling tot conventionele end-to-end modellen die antwoorden rechtstreeks vanuit RGB/RGB-D invoer voorspellen, rust onze aanpak het model uit met native 3D-objectperceptiecapaciteiten, waardoor het objecten direct in de 3D-ruimte kan lokaliseren op basis van tekstuele beschrijvingen. Voortbouwend op accurate 3D-objectlokalisatie voert het model verder expliciet redeneren uit in 3D, waardoor een interpreteerbaarder en gestructureerder ruimtelijk begrip wordt bereikt. Om robuuste training voor deze capaciteiten te ondersteunen, ontwikkelen we een schaalbare pijplijn voor dataconstructie die gebruikmaakt van diepteschatting om grootschalige 2D-annotaties naar de 3D-ruimte te tillen, waardoor de diversiteit en dekking van 3D-objectgrondingsdata aanzienlijk toenemen en een dataset oplevert die meer dan zes keer groter is dan de grootste bestaande 3D-detectiedataset voor enkele beelden. Bovendien genereert de pijplijn ruimtelijke vraag-antwoorddatasets die gericht zijn op chain-of-thought (CoT) redeneren in 3D, wat gezamenlijke training voor zowel 3D-objectlokalisatie als 3D-ruimtelijk redeneren vergemakkelijkt. Experimentele resultaten tonen aan dat ons unified framework niet alleen state-of-the-art prestaties bereikt bij 3D-grondingtaken, maar ook consistent bestaande methoden overtreft bij 3D-ruimtelijk redeneren in vision-language modellen.
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.
PDF192December 31, 2025