N3D-VLM: 네이티브 3D 기반 접근법을 통한 비전-언어 모델의 정확한 공간 추론 능력 구현
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models
December 18, 2025
저자: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI
초록
현재의 멀티모달 모델들은 2D 이미지를 기반으로 질문에 답변할 수 있지만, 본질적인 3D 객체 인식 능력이 부족하여 3D 장면에서의 공간 관계와 깊이 정보를 이해하는 데 한계가 있습니다. 본 연구에서는 정밀한 3D 기반 객체 위치 파악과 해석 가능한 공간 이해를 동시에 가능하게 하는 새로운 통합 프레임워크인 N3D-VLM을 제안합니다. RGB/RGB-D 입력으로부터 직접 답변을 예측하는 기존의 end-to-end 모델과 달리, 우리의 접근 방식은 모델에 본질적인 3D 객체 인식 능력을 부여하여 텍스트 설명을 기반으로 3D 공간에서 객체를 직접 위치시킬 수 있도록 합니다. 정확한 3D 객체 위치 파악을 바탕으로 모델은 3D 공간에서 명시적 추론을 추가 수행하여 더욱 해석 가능하고 구조화된 공간 이해를 달성합니다. 이러한 능력에 대한 강력한 학습을 지원하기 위해, 우리는 깊이 추정을 활용하여 대규모 2D 주석 데이터를 3D 공간으로 변환하는 확장 가능한 데이터 구축 파이프라인을 개발했습니다. 이를 통해 3D 객체 위치 파악 데이터의 다양성과 범위가 크게 증가하여 기존 단일 이미지 3D 감지 데이터셋 중 가장 큰 규모보다 6배 이상 큰 데이터셋을 구축했습니다. 더 나아가, 이 파이프라인은 3D 공간에서의 연쇄적 사고(Chain-of-Thought, CoT) 추론을 목표로 하는 공간 질의응답 데이터셋을 생성하여 3D 객체 위치 파악과 3D 공간 추론의 통합 학습을 용이하게 합니다. 실험 결과, 우리의 통합 프레임워크는 3D 기반 객체 위치 파악 작업에서 최첨단 성능을 달성할 뿐만 아니라, 비전-언어 모델의 3D 공간 추론에서도 기존 방법들을 지속적으로 능가하는 것으로 나타났습니다.
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.