N3D-VLM: La Grounding Nativa 3D Abilita un Ragionamento Spaziale Preciso nei Modelli Visione-Linguaggio
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models
December 18, 2025
Autori: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI
Abstract
Sebbene i modelli multimodali attuali siano in grado di rispondere a domande basate su immagini 2D, mancano di una percezione intrinseca degli oggetti 3D, limitando la loro capacità di comprendere le relazioni spaziali e gli indizi di profondità nelle scene 3D. In questo lavoro, proponiamo N3D-VLM, un nuovo framework unificato che integra perfettamente la percezione nativa degli oggetti 3D con il ragionamento visivo consapevole della tridimensionalità, consentendo sia un ancoraggio 3D preciso che una comprensione spaziale interpretabile. A differenza dei modelli end-to-end convenzionali che prevedono direttamente le risposte da input RGB/RGB-D, il nostro approccio fornisce al modello capacità di percezione nativa degli oggetti 3D, permettendogli di localizzare direttamente gli oggetti nello spazio 3D sulla base di descrizioni testuali. Basandosi su un accurato posizionamento degli oggetti in 3D, il modello esegue ulteriormente un ragionamento esplicito in tre dimensioni, raggiungendo una comprensione spaziale più strutturata e interpretabile. Per supportare un addestramento robusto di queste capacità, abbiamo sviluppato una pipeline scalabile per la costruzione di dati che sfrutta la stima della profondità per elevare annotazioni 2D su larga scala nello spazio 3D, aumentando significativamente la diversità e la copertura dei dati per l'ancoraggio di oggetti 3D, producendo un dataset oltre sei volte più grande del più grande dataset esistente di rilevamento 3D da immagine singola. Inoltre, la pipeline genera dataset di domande e risposte spaziali che mirano al ragionamento a catena del pensiero (CoT) in 3D, facilitando l'addestramento congiunto sia per la localizzazione di oggetti 3D che per il ragionamento spaziale tridimensionale. I risultati sperimentali dimostrano che il nostro framework unificato non solo raggiunge prestazioni all'avanguardia nelle attività di ancoraggio 3D, ma supera anche costantemente i metodi esistenti nel ragionamento spaziale 3D all'interno di modelli visione-linguaggio.
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.