Überlegen, dann erneut überlegen: Querschnittliches Wiederbetrachten verbessert räumliches Denken

Zusammenfassung

Räumliches Denken anhand egozentrischer Videos ist von Natur aus anspruchsvoll, da die beobachtbaren Belege durch die Kameratrajektorie eingeschränkt sind. Bestehende Verfahren stützen sich auf Einzel-Inferenz und zwingen Modelle dazu, geometrische Ambiguitäten eher durch semantische Priors als durch überprüfbare Evidenz aufzulösen. Wir argumentieren, dass räumliches Denken revisierbar sein sollte: Schlussfolgerungen, die unter begrenzter Evidenz gezogen werden, sollten offen für Revision bleiben, sobald komplementäre Blickwinkel verfügbar werden. Ausgehend von dieser Erkenntnis schlagen wir Reason, then Re-reason (ReRe) vor – ein trainingsfreies Inferenzzeit-Framework mit zwei Phasen: In der Reason-Phase bildet ein MLLM eine räumliche Hypothese aus dem Originalvideo; in der Re-reason-Phase verifiziert oder revidiert es die Hypothese durch Beobachtung eines synthetisierten Neu-Blickwinkel-Videos. Um effektives kreuzperspektivisches Überprüfen zu ermöglichen, entwickeln wir eine Geometrie-zu-Video-Pipeline, die strategisch komplementäre Neu-Blickwinkel aus vorhergesagter 3D-Geometrie rendert. Diese Perspektiven zeichnen sich durch eine erhöhte, schräge Ansicht mit szenenübergreifender Abdeckung aus, während sie die native Videoschnittstelle des MLLM ohne architektonische Anpassungen bewahren. Umfangreiche Auswertungen auf VSI-Bench und STI-Bench zeigen, dass ReRe die Leistung Open-Source-basierter MLLMs erheblich steigert, sodass sie mit proprietären Spitzenmodellen konkurrieren können. Projektseite: https://zhenjiemao.github.io/ReRe/

English

Spatial reasoning from egocentric videos is inherently challenging because the observable evidence is constrained by the camera trajectory. Existing methods rely on single-turn inference, forcing models to resolve geometric ambiguity through semantic priors rather than verifiable evidence. We argue that spatial reasoning should be revisitable: conclusions formed under limited evidence should remain open to revision when complementary viewpoints become available. Building on this insight, we propose Reason, then Re-reason (ReRe), a training-free, inference-time framework with two phases: in the Reason Phase, an MLLM forms a spatial hypothesis from the original video; in the Re-reason Phase, it verifies or revises the hypothesis by observing a synthesized novel-view video. To enable effective cross-view revisiting, we design a Geometry-to-Video pipeline that renders strategically complementary novel views from predicted 3D geometry. These views feature an elevated, oblique perspective with scene-spanning coverage, while preserving the MLLM's native video interface without architectural modifications. Extensive evaluations on VSI-Bench and STI-Bench demonstrate that ReRe substantially boosts open-source MLLMs to rival proprietary state-of-the-art performance. Project page: https://zhenjiemao.github.io/ReRe/