Recompensa Densa para Razonamiento 3D Multivista con Mapas Globales y Vistas Locales

Resumen

La tarea de Preguntas y Respuestas Visuales 3D Multivista (MV3D-VQA) requiere integrar observaciones parciales en una representación de escena 3D coherente y seleccionar puntos de vista informativos para un razonamiento espacial de múltiples pasos. Sin embargo, los LLM multimodales actuales suelen entrenarse con una supervisión dispersa a nivel de respuesta, lo que a menudo produce un razonamiento inconsistente entre vistas y una selección de vistas frágil. Presentamos DR-MV3D (Recompensa Densa para MV3D-VQA), un marco de aprendizaje basado en mapas que proporciona recompensas densas y verificables para supervisar el proceso de razonamiento. Nuestro enfoque descompone MV3D-VQA en (i) la construcción de un mapa global alocéntrico, (ii) la planificación de una trayectoria de vistas condicionada a la pregunta, y (iii) la fundamentación egocéntrica para la predicción de respuestas. Para que los pasos intermedios sean aprendibles sin anotaciones manuales, introducimos dos recompensas: una recompensa de consistencia global que alinea el mapa predicho con pseudoobjetivos geométricamente consistentes provenientes de modelos fundamentales de visión 3D congelados (por ejemplo, VGGT + SAM3), y una recompensa de trayectoria local que supervisa la selección ordenada de puntos de vista. Optimizamos todo el flujo mediante optimización de políticas a nivel de trayectoria (GRPO). Los experimentos en MindCube, VSI-Bench y BLINK (MV) muestran que DR-MV3D mejora consistentemente en comparación con líneas base sólidas de múltiples imágenes, respaldando la efectividad de la supervisión densa a nivel de proceso para el razonamiento 3D multivista.

English

Multi-view 3D Visual Question Answering (MV3D-VQA) requires integrating partial observations into a coherent 3D scene representation and selecting informative viewpoints for multi-step spatial reasoning. However, current multimodal LLMs are typically trained with sparse, answer-level supervision, which often yields inconsistent cross-view reasoning and brittle view selection. We present DR-MV3D (Dense Reward for MV3D-VQA), a map-grounded learning framework that provides dense, verifiable rewards to supervise the reasoning process. Our approach decomposes MV3D-VQA into (i) allocentric global map construction, (ii) question-conditioned view-trajectory planning, and (iii) egocentric grounding for answer prediction. To make intermediate steps learnable without manual annotations, we introduce two rewards: a global consistency reward that aligns the predicted map with geometry-consistent pseudo targets from frozen 3D vision foundation models (e.g., VGGT + SAM3), and a local trajectory reward that supervises ordered viewpoint selection. We optimize the full pipeline with trajectory-level policy optimization (GRPO). Experiments on MindCube, VSI-Bench, and BLINK (MV) show that DR-MV3D consistently improves over strong multi-image baselines, supporting the effectiveness of process-level dense supervision for multi-view 3D reasoning.