ChatPaper.aiChatPaper

N3D-VLM:ネイティブ3Dグラウンディングによる視覚言語モデルの高精度な空間推論

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

December 18, 2025
著者: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
cs.AI

要旨

現在のマルチモーダルモデルは2D画像に基づく質問応答が可能だが、本質的な3Dオブジェクト知覚を欠いており、3Dシーンにおける空間関係や深度手がかりの理解能力が制限されている。本研究では、ネイティブな3Dオブジェクト知覚と3D認識視覚推論を統合した新しい統一フレームワーク「N3D-VLM」を提案する。これにより、精密な3Dグラウンディングと解釈可能な空間理解が可能となる。RGB/RGB-D入力から直接回答を予測する従来のエンドツーエンドモデルとは異なり、本手法はモデルにネイティブな3Dオブジェクト知覚能力を付与し、テキスト記述に基づいて3D空間内でオブジェクトを直接位置特定できるようにする。正確な3Dオブジェクト位置特定を基盤として、モデルは3D空間での明示的推論をさらに実行し、より解釈可能で構造化された空間理解を実現する。これらの能力の堅牢な訓練を支援するため、深度推定を活用して大規模2D注釈を3D空間にリフトするスケーラブルなデータ構築パイプラインを開発した。これにより、3Dオブジェクトグラウンディングデータの多様性と網羅性が大幅に向上し、既存最大の単一画像3D検出データセットの6倍以上規模となった。さらに、このパイプラインは3D空間における連鎖思考(CoT)推論を対象とした空間的質問応答データセットを生成し、3Dオブジェクト位置特定と3D空間推論の共同訓練を促進する。実験結果により、本統一フレームワークが3Dグラウンディングタスクで最先端の性能を達成するだけでなく、視覚言語モデルにおける3D空間推論でも既存手法を一貫して上回ることを実証した。
English
While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.
PDF172December 20, 2025