Redeneer, Herredeneer: Herziening over Verschillende Gezichtspunten Verbetert Ruimtelijk Redeneren

Samenvatting

Ruimtelijk redeneren op basis van egocentrische video's is inherent uitdagend omdat het waarneembare bewijs wordt beperkt door het cameratraject. Bestaande methoden vertrouwen op eenmalige inferentie, waardoor modellen worden gedwongen geometrische ambiguïteit op te lossen via semantische voorkennis in plaats van verifieerbaar bewijs. Wij stellen dat ruimtelijk redeneren herzienbaar moet zijn: conclusies die worden gevormd op basis van beperkt bewijs moeten open blijven voor herziening wanneer complementaire gezichtspunten beschikbaar komen. Voortbouwend op dit inzicht stellen wij Reason, then Re-reason (ReRe) voor, een trainingsvrij, inferentie-tijdraamwerk met twee fasen: in de Reason-fase vormt een MLLM een ruimtelijke hypothese op basis van de originele video; in de Re-reason-fase verifieert of herziet het de hypothese door een gesynthetiseerde nieuw-zichtvideo te observeren. Om effectieve kruislingse herziening mogelijk te maken, ontwerpen we een Geometry-to-Video-pijplijn die strategisch complementaire nieuwe gezichtspunten weergeeft op basis van voorspelde 3D-geometrie. Deze gezichtspunten kenmerken zich door een verhoogd, schuin perspectief met scènedekkende reikwijdte, terwijl de oorspronkelijke video-interface van de MLLM behouden blijft zonder architecturale aanpassingen. Uitgebreide evaluaties op VSI-Bench en STI-Bench tonen aan dat ReRe opensource-MLLM's aanzienlijk verbetert, zodat ze kunnen concurreren met propriëtaire state-of-the-art prestaties. Projectpagina: https://zhenjiemao.github.io/ReRe/

English

Spatial reasoning from egocentric videos is inherently challenging because the observable evidence is constrained by the camera trajectory. Existing methods rely on single-turn inference, forcing models to resolve geometric ambiguity through semantic priors rather than verifiable evidence. We argue that spatial reasoning should be revisitable: conclusions formed under limited evidence should remain open to revision when complementary viewpoints become available. Building on this insight, we propose Reason, then Re-reason (ReRe), a training-free, inference-time framework with two phases: in the Reason Phase, an MLLM forms a spatial hypothesis from the original video; in the Re-reason Phase, it verifies or revises the hypothesis by observing a synthesized novel-view video. To enable effective cross-view revisiting, we design a Geometry-to-Video pipeline that renders strategically complementary novel views from predicted 3D geometry. These views feature an elevated, oblique perspective with scene-spanning coverage, while preserving the MLLM's native video interface without architectural modifications. Extensive evaluations on VSI-Bench and STI-Bench demonstrate that ReRe substantially boosts open-source MLLMs to rival proprietary state-of-the-art performance. Project page: https://zhenjiemao.github.io/ReRe/