Dichte Belohnung für Multi-View-3D-Schlussfolgerung mit globalen Karten und lokalen Ansichten

Zusammenfassung

Multi-View-3D-Visual-Question-Answering (MV3D-VQA) erfordert die Integration partieller Beobachtungen in eine kohärente 3D-Szenenrepräsentation sowie die Auswahl informativer Blickwinkel für mehrschrittiges räumliches Denken. Aktuelle multimodale große Sprachmodelle (LLMs) werden jedoch typischerweise mit spärlicher, antwortbezogener Überwachung trainiert, was häufig zu inkonsistenten blickübergreifenden Schlussfolgerungen und einer fragilen Blickwinkelauswahl führt. Wir stellen DR-MV3D (Dense Reward for MV3D-VQA) vor, ein kartengestütztes Lernframework, das dichte, verifizierbare Belohnungen zur Überwachung des Denkprozesses bereitstellt. Unser Ansatz zerlegt MV3D-VQA in (i) allozentrische globale Kartenerstellung, (ii) fragestellungsabhängige Blicktrajektorienplanung und (iii) egozentrische Verankerung zur Antwortvorhersage. Um Zwischenschritte ohne manuelle Annotationen lernbar zu machen, führen wir zwei Belohnungen ein: eine globale Konsistenzbelohnung, die die vorhergesagte Karte mit geometrisch konsistenten Pseudo-Zielen aus eingefrorenen 3D-Grundlagenmodellen der Bildverarbeitung (z. B. VGGT + SAM3) abgleicht, und eine lokale Trajektorienbelohnung, die die geordnete Blickwinkelauswahl überwacht. Wir optimieren die gesamte Pipeline mittels Trajektorien-basierter Policy-Optimierung (GRPO). Experimente auf MindCube, VSI-Bench und BLINK (MV) zeigen, dass DR-MV3D durchgängig Verbesserungen gegenüber starken Multi-Image-Baselines erzielt, was die Wirksamkeit einer prozessbezogenen dichten Überwachung für multi-perspektivisches 3D-Denken unterstreicht.

English

Multi-view 3D Visual Question Answering (MV3D-VQA) requires integrating partial observations into a coherent 3D scene representation and selecting informative viewpoints for multi-step spatial reasoning. However, current multimodal LLMs are typically trained with sparse, answer-level supervision, which often yields inconsistent cross-view reasoning and brittle view selection. We present DR-MV3D (Dense Reward for MV3D-VQA), a map-grounded learning framework that provides dense, verifiable rewards to supervise the reasoning process. Our approach decomposes MV3D-VQA into (i) allocentric global map construction, (ii) question-conditioned view-trajectory planning, and (iii) egocentric grounding for answer prediction. To make intermediate steps learnable without manual annotations, we introduce two rewards: a global consistency reward that aligns the predicted map with geometry-consistent pseudo targets from frozen 3D vision foundation models (e.g., VGGT + SAM3), and a local trajectory reward that supervises ordered viewpoint selection. We optimize the full pipeline with trajectory-level policy optimization (GRPO). Experiments on MindCube, VSI-Bench, and BLINK (MV) show that DR-MV3D consistently improves over strong multi-image baselines, supporting the effectiveness of process-level dense supervision for multi-view 3D reasoning.