Raciocine, depois re-raciocine: Revisão entre perspectivas melhora o raciocínio espacial

Resumo

O raciocínio espacial a partir de vídeos egocêntricos é inerentemente desafiador porque as evidências observáveis são limitadas pela trajetória da câmera. Métodos existentes dependem de inferência de turno único, forçando modelos a resolver ambiguidades geométricas por meio de priores semânticos em vez de evidências verificáveis. Argumentamos que o raciocínio espacial deve ser revisável: conclusões formadas com evidências limitadas devem permanecer abertas a revisão quando pontos de vista complementares se tornarem disponíveis. Com base nessa percepção, propomos o Reason, then Re-reason (ReRe), um framework livre de treinamento, em tempo de inferência, com duas fases: na Fase de Raciocínio, um MLLM forma uma hipótese espacial a partir do vídeo original; na Fase de Re-raciocínio, ele verifica ou revisa a hipótese ao observar um vídeo de nova vista sintetizado. Para permitir uma revisão eficaz entre vistas, projetamos um pipeline Geometria-para-Vídeo que renderiza novas vistas estrategicamente complementares a partir da geometria 3D prevista. Essas vistas apresentam uma perspectiva elevada e oblíqua, com cobertura abrangente da cena, preservando a interface nativa de vídeo do MLLM sem modificações arquiteturais. Avaliações extensas no VSI-Bench e STI-Bench demonstram que o ReRe impulsiona substancialmente MLLMs de código aberto a rivalizar com o desempenho proprietário de última geração. Página do projeto: https://zhenjiemao.github.io/ReRe/

English

Spatial reasoning from egocentric videos is inherently challenging because the observable evidence is constrained by the camera trajectory. Existing methods rely on single-turn inference, forcing models to resolve geometric ambiguity through semantic priors rather than verifiable evidence. We argue that spatial reasoning should be revisitable: conclusions formed under limited evidence should remain open to revision when complementary viewpoints become available. Building on this insight, we propose Reason, then Re-reason (ReRe), a training-free, inference-time framework with two phases: in the Reason Phase, an MLLM forms a spatial hypothesis from the original video; in the Re-reason Phase, it verifies or revises the hypothesis by observing a synthesized novel-view video. To enable effective cross-view revisiting, we design a Geometry-to-Video pipeline that renders strategically complementary novel views from predicted 3D geometry. These views feature an elevated, oblique perspective with scene-spanning coverage, while preserving the MLLM's native video interface without architectural modifications. Extensive evaluations on VSI-Bench and STI-Bench demonstrate that ReRe substantially boosts open-source MLLMs to rival proprietary state-of-the-art performance. Project page: https://zhenjiemao.github.io/ReRe/