Récompense dense pour le raisonnement 3D multi-vue avec des cartes globales et des vues locales

Résumé

La question-réponse visuelle 3D multi-vue (MV3D-VQA) nécessite d'intégrer des observations partielles en une représentation de scène 3D cohérente et de sélectionner des points de vue informatifs pour un raisonnement spatial en plusieurs étapes. Cependant, les modèles multimodaux de grands langages actuels sont généralement entraînés avec une supervision parcimonieuse au niveau des réponses, ce qui conduit souvent à un raisonnement incohérent entre les vues et à une sélection fragile des points de vue. Nous présentons DR-MV3D (récompense dense pour MV3D-VQA), un cadre d'apprentissage basé sur une carte qui fournit des récompenses denses et vérifiables pour superviser le processus de raisonnement. Notre approche décompose MV3D-VQA en (i) construction d'une carte globale allocentrique, (ii) planification de trajectoire de vues conditionnée par la question, et (iii) ancrage égocentrique pour la prédiction de la réponse. Afin de rendre les étapes intermédiaires apprenables sans annotations manuelles, nous introduisons deux récompenses : une récompense de cohérence globale qui aligne la carte prédite avec des cibles pseudo-géométriquement cohérentes issues de modèles de vision 3D fondamentaux gelés (par exemple, VGGT + SAM3), et une récompense de trajectoire locale qui supervise la sélection ordonnée des points de vue. Nous optimisons l'ensemble du pipeline avec une optimisation de politique au niveau de la trajectoire (GRPO). Les expériences sur MindCube, VSI-Bench et BLINK (MV) montrent que DR-MV3D améliore systématiquement les modèles de référence multi-images forts, confirmant l'efficacité d'une supervision dense au niveau du processus pour le raisonnement 3D multi-vue.

English

Multi-view 3D Visual Question Answering (MV3D-VQA) requires integrating partial observations into a coherent 3D scene representation and selecting informative viewpoints for multi-step spatial reasoning. However, current multimodal LLMs are typically trained with sparse, answer-level supervision, which often yields inconsistent cross-view reasoning and brittle view selection. We present DR-MV3D (Dense Reward for MV3D-VQA), a map-grounded learning framework that provides dense, verifiable rewards to supervise the reasoning process. Our approach decomposes MV3D-VQA into (i) allocentric global map construction, (ii) question-conditioned view-trajectory planning, and (iii) egocentric grounding for answer prediction. To make intermediate steps learnable without manual annotations, we introduce two rewards: a global consistency reward that aligns the predicted map with geometry-consistent pseudo targets from frozen 3D vision foundation models (e.g., VGGT + SAM3), and a local trajectory reward that supervises ordered viewpoint selection. We optimize the full pipeline with trajectory-level policy optimization (GRPO). Experiments on MindCube, VSI-Bench, and BLINK (MV) show that DR-MV3D consistently improves over strong multi-image baselines, supporting the effectiveness of process-level dense supervision for multi-view 3D reasoning.