Рассуждение, затем повторное рассуждение: межракурсный пересмотр улучшает пространственное мышление

Аннотация

Пространственное рассуждение на основе эгоцентрических видео представляет собой сложную задачу, поскольку наблюдаемые данные ограничены траекторией камеры. Существующие методы полагаются на однократный вывод, вынуждая модели разрешать геометрическую неоднозначность с помощью семантических априорных предположений, а не проверяемых данных. Мы утверждаем, что пространственное рассуждение должно быть подлежащим пересмотру: выводы, сделанные на основе ограниченных данных, должны оставаться открытыми для корректировки при появлении дополнительных точек обзора. Основываясь на этой идее, мы предлагаем Reason, then Re-reason (ReRe) — бестренинговый подход на этапе вывода, состоящий из двух фаз: в фазе рассуждения (Reason Phase) MLLM формирует пространственную гипотезу на основе исходного видео; в фазе перерассуждения (Re-reason Phase) она проверяет или корректирует гипотезу, наблюдая синтезированное видео с новой точки обзора. Для эффективного пересмотра с изменённого ракурса мы разрабатываем конвейер Geometry-to-Video, который строит стратегически дополняющие новые виды на основе предсказанной 3D-геометрии. Эти виды отличаются приподнятым косым ракурсом с охватом всей сцены, сохраняя при этом нативный видеоинтерфейс MLLM без архитектурных модификаций. Обширные оценки на VSI-Bench и STI-Bench показывают, что ReRe существенно повышает производительность MLLM с открытым исходным кодом до уровня, сопоставимого с проприетарными моделями, достигшими современного уровня. Страница проекта: https://zhenjiemao.github.io/ReRe/

English

Spatial reasoning from egocentric videos is inherently challenging because the observable evidence is constrained by the camera trajectory. Existing methods rely on single-turn inference, forcing models to resolve geometric ambiguity through semantic priors rather than verifiable evidence. We argue that spatial reasoning should be revisitable: conclusions formed under limited evidence should remain open to revision when complementary viewpoints become available. Building on this insight, we propose Reason, then Re-reason (ReRe), a training-free, inference-time framework with two phases: in the Reason Phase, an MLLM forms a spatial hypothesis from the original video; in the Re-reason Phase, it verifies or revises the hypothesis by observing a synthesized novel-view video. To enable effective cross-view revisiting, we design a Geometry-to-Video pipeline that renders strategically complementary novel views from predicted 3D geometry. These views feature an elevated, oblique perspective with scene-spanning coverage, while preserving the MLLM's native video interface without architectural modifications. Extensive evaluations on VSI-Bench and STI-Bench demonstrate that ReRe substantially boosts open-source MLLMs to rival proprietary state-of-the-art performance. Project page: https://zhenjiemao.github.io/ReRe/