グローバルマップとローカルビューを用いた多視点3D推論のための密な報酬
Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views
June 22, 2026
著者: Jiho Choi, Seonho Lee, Seojeong Park, Hyunjung Shim
cs.AI
要旨
マルチビュー3D視覚質問応答(MV3D-VQA)では、部分的な観測を統合して一貫した3Dシーン表現を構築し、多段階の空間推論のために情報量の多い視点を選択する必要がある。しかし、現在のマルチモーダルLLMは通常、疎な回答レベルの教師信号で訓練されており、その結果、ビュー間の推論に一貫性がなく、視点選択が脆弱になることが多い。我々は、DR-MV3D(MV3D-VQAのための高密度報酬)を提案する。これは、推論プロセスを監督するための高密度で検証可能な報酬を提供するマップに基づく学習フレームワークである。我々のアプローチは、MV3D-VQAを(i) アロセントリックなグローバルマップ構築、(ii) 質問条件付き視点軌道計画、(iii) 回答予測のためのエゴセントリックなグラウンディングに分解する。中間ステップを手動アノテーションなしで学習可能にするために、2つの報酬を導入する。グローバル一貫性報酬は、予測されたマップを、凍結された3D視覚基盤モデル(例:VGGT + SAM3)からの幾何学的に一貫した擬似ターゲットと整列させ、局所軌道報酬は、順序付き視点選択を監督する。我々は、軌道レベルの政策最適化(GRPO)を用いてパイプライン全体を最適化する。MindCube、VSI-Bench、BLINK (MV) での実験により、DR-MV3Dが強力なマルチ画像ベースラインを一貫して上回り、マルチビュー3D推論におけるプロセスレベルの高密度監督の有効性が示された。
English
Multi-view 3D Visual Question Answering (MV3D-VQA) requires integrating partial observations into a coherent 3D scene representation and selecting informative viewpoints for multi-step spatial reasoning. However, current multimodal LLMs are typically trained with sparse, answer-level supervision, which often yields inconsistent cross-view reasoning and brittle view selection. We present DR-MV3D (Dense Reward for MV3D-VQA), a map-grounded learning framework that provides dense, verifiable rewards to supervise the reasoning process. Our approach decomposes MV3D-VQA into (i) allocentric global map construction, (ii) question-conditioned view-trajectory planning, and (iii) egocentric grounding for answer prediction. To make intermediate steps learnable without manual annotations, we introduce two rewards: a global consistency reward that aligns the predicted map with geometry-consistent pseudo targets from frozen 3D vision foundation models (e.g., VGGT + SAM3), and a local trajectory reward that supervises ordered viewpoint selection. We optimize the full pipeline with trajectory-level policy optimization (GRPO). Experiments on MindCube, VSI-Bench, and BLINK (MV) show that DR-MV3D consistently improves over strong multi-image baselines, supporting the effectiveness of process-level dense supervision for multi-view 3D reasoning.