ChatPaper.aiChatPaper

N3D-VLM: La Fundamentación Nativa 3D Permite un Razonamiento Espacial Preciso en Modelos de Visión y Lenguaje

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

December 18, 2025
Autores: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI

Resumen

Si bien los modelos multimodales actuales pueden responder preguntas basadas en imágenes 2D, carecen de percepción intrínseca de objetos 3D, lo que limita su capacidad para comprender las relaciones espaciales y las señales de profundidad en escenas 3D. En este trabajo, proponemos N3D-VLM, un novedoso marco unificado que integra de forma fluida la percepción nativa de objetos 3D con el razonamiento visual consciente del 3D, permitiendo tanto una localización 3D precisa como una comprensión espacial interpretable. A diferencia de los modelos convencionales de extremo a extremo que predicen respuestas directamente a partir de entradas RGB/RGB-D, nuestro enfoque dota al modelo de capacidades de percepción nativa de objetos 3D, permitiéndole localizar objetos directamente en el espacio 3D basándose en descripciones textuales. Sobre la base de una localización precisa de objetos 3D, el modelo realiza además un razonamiento explícito en 3D, logrando una comprensión espacial más interpretable y estructurada. Para respaldar un entrenamiento robusto de estas capacidades, desarrollamos un pipeline escalable de construcción de datos que aprovecha la estimación de profundidad para elevar anotaciones 2D a gran escala al espacio 3D, aumentando significativamente la diversidad y cobertura de los datos de localización de objetos 3D, obteniendo un volumen más de seis veces mayor que el mayor conjunto de datos existente de detección 3D en imagen única. Además, el pipeline genera conjuntos de datos de preguntas y respuestas espaciales que se centran en el razonamiento de cadena de pensamiento (CoT) en 3D, facilitando el entrenamiento conjunto tanto para la localización de objetos 3D como para el razonamiento espacial 3D. Los resultados experimentales demuestran que nuestro marco unificado no solo logra un rendimiento de vanguardia en tareas de localización 3D, sino que también supera consistentemente a los métodos existentes en razonamiento espacial 3D dentro de modelos de visión y lenguaje.
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.
PDF172December 20, 2025