N3D-VLM: A Fundamentação Tridimensional Nativa Permite um Raciocínio Espacial Preciso em Modelos de Visão e Linguagem

Resumo

Embora os modelos multimodais atuais possam responder a perguntas com base em imagens 2D, eles carecem de percepção intrínseca de objetos 3D, limitando sua capacidade de compreender relações espaciais e pistas de profundidade em cenas 3D. Neste trabalho, propomos o N3D-VLM, uma nova estrutura unificada que integra perfeitamente a percepção nativa de objetos 3D com o raciocínio visual consciente da tridimensionalidade, permitindo tanto a ancoragem 3D precisa quanto a compreensão espacial interpretável. Diferentemente dos modelos convencionais de ponta a ponta que preveem respostas diretamente a partir de entradas RGB/RGB-D, nossa abordagem equipa o modelo com capacidades de percepção nativa de objetos 3D, permitindo-lhe localizar objetos diretamente no espaço 3D com base em descrições textais. Com base na localização precisa de objetos 3D, o modelo realiza ainda um raciocínio explícito em 3D, alcançando uma compreensão espacial mais interpretável e estruturada. Para suportar o treinamento robusto dessas capacidades, desenvolvemos um pipeline escalável de construção de dados que aproveita a estimativa de profundidade para elevar anotações 2D em larga escala para o espaço 3D, aumentando significativamente a diversidade e cobertura dos dados de ancoragem 3D, resultando em um conjunto mais de seis vezes maior que o maior conjunto de dados de detecção 3D em imagem única existente. Além disso, o pipeline gera conjuntos de dados de perguntas e respostas espaciais que visam o raciocínio de cadeia de pensamento (CoT) em 3D, facilitando o treinamento conjunto para localização de objetos 3D e raciocínio espacial 3D. Resultados experimentais demonstram que nossa estrutura unificada não apenas alcança desempenho state-of-the-art em tarefas de ancoragem 3D, mas também supera consistentemente os métodos existentes em raciocínio espacial 3D em modelos de visão e linguagem.

English

While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.

N3D-VLM: A Fundamentação Tridimensional Nativa Permite um Raciocínio Espacial Preciso em Modelos de Visão e Linguagem

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Resumo

Support