Плотное вознаграждение для многовидового 3D рассуждения с глобальными картами и локальными видами

Аннотация

Мультивидовая 3D-визуальная вопросно-ответная система (MV3D-VQA) требует интеграции частичных наблюдений в целостное представление 3D-сцены и выбора информативных точек обзора для многопланового пространственного рассуждения. Однако современные мультимодальные большие языковые модели обычно обучаются с разреженным контролем на уровне ответов, что часто приводит к несогласованному кросс-видовому рассуждению и хрупкому выбору ракурсов. Мы представляем DR-MV3D (плотная награда для MV3D-VQA) — основанный на карте обучающий фреймворк, который обеспечивает плотные верифицируемые награды для управления процессом рассуждения. Наш подход декомпозирует MV3D-VQA на (i) аллоцентрическое построение глобальной карты, (ii) планирование траектории обзора, обусловленное вопросом, и (iii) эгоцентрическое обоснование для предсказания ответа. Чтобы сделать промежуточные шаги обучаемыми без ручной разметки, мы вводим две награды: награду за глобальную согласованность, которая выравнивает предсказанную карту с геометрически согласованными псевдоцелями из замороженных фундаментальных 3D-визуальных моделей (например, VGGT + SAM3), и локальную награду за траекторию, которая контролирует упорядоченный выбор точек обзора. Мы оптимизируем полный конвейер с помощью оптимизации политики на уровне траекторий (GRPO). Эксперименты на MindCube, VSI-Bench и BLINK (MV) показывают, что DR-MV3D стабильно превосходит сильные мультиизображенческие базовые модели, подтверждая эффективность плотного контроля на уровне процессов для мультивидового 3D-рассуждения.

English

Multi-view 3D Visual Question Answering (MV3D-VQA) requires integrating partial observations into a coherent 3D scene representation and selecting informative viewpoints for multi-step spatial reasoning. However, current multimodal LLMs are typically trained with sparse, answer-level supervision, which often yields inconsistent cross-view reasoning and brittle view selection. We present DR-MV3D (Dense Reward for MV3D-VQA), a map-grounded learning framework that provides dense, verifiable rewards to supervise the reasoning process. Our approach decomposes MV3D-VQA into (i) allocentric global map construction, (ii) question-conditioned view-trajectory planning, and (iii) egocentric grounding for answer prediction. To make intermediate steps learnable without manual annotations, we introduce two rewards: a global consistency reward that aligns the predicted map with geometry-consistent pseudo targets from frozen 3D vision foundation models (e.g., VGGT + SAM3), and a local trajectory reward that supervises ordered viewpoint selection. We optimize the full pipeline with trajectory-level policy optimization (GRPO). Experiments on MindCube, VSI-Bench, and BLINK (MV) show that DR-MV3D consistently improves over strong multi-image baselines, supporting the effectiveness of process-level dense supervision for multi-view 3D reasoning.