N3D-VLM : L'ancrage natif en 3D permet un raisonnement spatial précis dans les modèles vision-langage
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models
December 18, 2025
papers.authors: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI
papers.abstract
Si les modèles multimodaux actuels peuvent répondre à des questions basées sur des images 2D, ils manquent d'une perception intrinsèque des objets 3D, ce qui limite leur capacité à comprendre les relations spatiales et les indices de profondeur dans les scènes 3D. Dans ce travail, nous proposons N3D-VLM, une nouvelle architecture unifiée qui intègre de manière transparente la perception native des objets 3D avec un raisonnement visuel conscient de la 3D, permettant à la fois un ancrage 3D précis et une compréhension spatiale interprétable. Contrairement aux modèles conventionnels de bout en bout qui prédisent directement les réponses à partir d'entrées RVB ou RVB-D, notre approche dote le modèle de capacités de perception native des objets 3D, lui permettant de localiser directement des objets dans l'espace 3D sur la base de descriptions textuelles. En s'appuyant sur une localisation précise des objets en 3D, le modèle effectue ensuite un raisonnement explicite en trois dimensions, obtenant ainsi une compréhension spatiale plus structurée et interprétable. Pour soutenir un apprentissage robuste de ces capacités, nous avons développé un pipeline évolutif de construction de données qui utilise l'estimation de profondeur pour transformer de grandes annotations 2D en espace 3D, augmentant considérablement la diversité et la couverture des données pour l'ancrage d'objets 3D, produisant un jeu de données plus de six fois supérieur au plus grand jeu de données existant de détection 3D sur image unique. De plus, le pipeline génère des je de données de questions-réponses spatiales qui ciblent le raisonnement par enchaînement de pensées (Chain-of-Thought, CoT) en 3D, facilitant l'apprentissage conjoint pour la localisation d'objets 3D et le raisonnement spatial 3D. Les résultats expérimentaux démontrent que notre cadre unifié atteint non seulement des performances de pointe dans les tâches d'ancrage 3D, mais surpasse également constamment les méthodes existantes en matière de raisonnement spatial 3D dans les modèles vision-langage.
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.