Razonar, luego volver a razonar: la revisión desde múltiples vistas mejora el razonamiento espacial

Resumen

El razonamiento espacial a partir de videos egocéntricos es inherentemente desafiante porque la evidencia observable está limitada por la trayectoria de la cámara. Los métodos existentes se basan en inferencias de un solo paso, lo que obliga a los modelos a resolver la ambigüedad geométrica mediante prioridades semánticas en lugar de evidencia verificable. Sostenemos que el razonamiento espacial debería ser revisable: las conclusiones formadas con evidencia limitada deberían permanecer abiertas a revisión cuando se disponga de puntos de vista complementarios. Basándonos en esta idea, proponemos Reason, then Re-reason (ReRe), un marco de inferencia sin entrenamiento y en tiempo de ejecución con dos fases: en la Fase de Razonamiento, un MLLM formula una hipótesis espacial a partir del video original; en la Fase de Repensamiento, verifica o revisa la hipótesis observando un video sintetizado de vista novedosa. Para habilitar una revisión efectiva entre vistas, diseñamos un pipeline de Geometría a Video que renderiza vistas novedosas estratégicamente complementarias a partir de la geometría 3D predicha. Estas vistas presentan una perspectiva elevada y oblicua con cobertura que abarca la escena, preservando al mismo tiempo la interfaz nativa de video del MLLM sin modificaciones arquitectónicas. Evaluaciones exhaustivas en VSI-Bench y STI-Bench demuestran que ReRe impulsa sustancialmente a los MLLM de código abierto para rivalizar con el rendimiento de última generación de los propietarios. Página del proyecto: https://zhenjiemao.github.io/ReRe/

English

Spatial reasoning from egocentric videos is inherently challenging because the observable evidence is constrained by the camera trajectory. Existing methods rely on single-turn inference, forcing models to resolve geometric ambiguity through semantic priors rather than verifiable evidence. We argue that spatial reasoning should be revisitable: conclusions formed under limited evidence should remain open to revision when complementary viewpoints become available. Building on this insight, we propose Reason, then Re-reason (ReRe), a training-free, inference-time framework with two phases: in the Reason Phase, an MLLM forms a spatial hypothesis from the original video; in the Re-reason Phase, it verifies or revises the hypothesis by observing a synthesized novel-view video. To enable effective cross-view revisiting, we design a Geometry-to-Video pipeline that renders strategically complementary novel views from predicted 3D geometry. These views feature an elevated, oblique perspective with scene-spanning coverage, while preserving the MLLM's native video interface without architectural modifications. Extensive evaluations on VSI-Bench and STI-Bench demonstrate that ReRe substantially boosts open-source MLLMs to rival proprietary state-of-the-art performance. Project page: https://zhenjiemao.github.io/ReRe/