Raisonner, puis re-raisonner : La revisite cross-vue améliore le raisonnement spatial

Résumé

Le raisonnement spatial à partir de vidéos égocentriques est intrinsèquement difficile car les preuves observables sont contraintes par la trajectoire de la caméra. Les méthodes existantes reposent sur une inférence en un seul passage, forçant les modèles à résoudre l'ambiguïté géométrique via des a priori sémantiques plutôt que par des preuves vérifiables. Nous soutenons que le raisonnement spatial devrait pouvoir être revisité : les conclusions formulées à partir d'informations limitées doivent rester ouvertes à révision lorsque des points de vue complémentaires deviennent disponibles. Partant de cette observation, nous proposons Reason, then Re-reason (ReRe), un cadre sans entraînement, à l'inférence, comprenant deux phases : dans la phase de Raisonnement, un MLLM forme une hypothèse spatiale à partir de la vidéo originale ; dans la phase de Re-raisonnement, il vérifie ou révise l'hypothèse en observant une vidéo synthétisée d'un nouveau point de vue. Pour permettre un réexamen inter-vues efficace, nous concevons un pipeline Geometry-to-Video qui génère des vues nouvelles stratégiquement complémentaires à partir d'une géométrie 3D prédite. Ces vues adoptent une perspective oblique surélevée avec une couverture s'étendant sur la scène, tout en préservant l'interface vidéo native du MLLM sans modification architecturale. Des évaluations approfondies sur VSI-Bench et STI-Bench démontrent que ReRe améliore considérablement les MLLM open source, leur permettant d'égaler les performances des modèles propriétaires de pointe. Page du projet : https://zhenjiemao.github.io/ReRe/

English

Spatial reasoning from egocentric videos is inherently challenging because the observable evidence is constrained by the camera trajectory. Existing methods rely on single-turn inference, forcing models to resolve geometric ambiguity through semantic priors rather than verifiable evidence. We argue that spatial reasoning should be revisitable: conclusions formed under limited evidence should remain open to revision when complementary viewpoints become available. Building on this insight, we propose Reason, then Re-reason (ReRe), a training-free, inference-time framework with two phases: in the Reason Phase, an MLLM forms a spatial hypothesis from the original video; in the Re-reason Phase, it verifies or revises the hypothesis by observing a synthesized novel-view video. To enable effective cross-view revisiting, we design a Geometry-to-Video pipeline that renders strategically complementary novel views from predicted 3D geometry. These views feature an elevated, oblique perspective with scene-spanning coverage, while preserving the MLLM's native video interface without architectural modifications. Extensive evaluations on VSI-Bench and STI-Bench demonstrate that ReRe substantially boosts open-source MLLMs to rival proprietary state-of-the-art performance. Project page: https://zhenjiemao.github.io/ReRe/