Räumliche mentale Modellierung aus begrenzten Blickwinkeln
Spatial Mental Modeling from Limited Views
June 26, 2025
Autoren: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI
Zusammenfassung
Können Vision-Language-Modelle (VLMs) die gesamte Szene aus nur wenigen Ansichten imaginieren, wie es Menschen tun? Menschen bilden räumliche mentale Modelle, interne Repräsentationen von nicht sichtbarem Raum, um über Layout, Perspektive und Bewegung zu schließen. Unser neuer MindCube-Benchmark mit 21.154 Fragen über 3.268 Bilder deckt diese kritische Lücke auf, bei der bestehende VLMs nahezu zufällige Leistung zeigen. Mit MindCube evaluieren wir systematisch, wie gut VLMs robuste räumliche mentale Modelle durch die Darstellung von Positionen (kognitive Kartierung), Orientierungen (Perspektivenübernahme) und Dynamiken (mentale Simulation für „Was-wäre-wenn“-Bewegungen) aufbauen. Anschließend untersuchen wir drei Ansätze, um VLMs bei der Annäherung an räumliche mentale Modelle zu unterstützen, darunter nicht sichtbare Zwischenansichten, natürliche Sprachargumentationsketten und kognitive Karten. Die signifikante Verbesserung ergibt sich aus einem synergetischen Ansatz, „map-then-reason“, bei dem das Modell gemeinsam trainiert wird, zunächst eine kognitive Karte zu generieren und dann darauf zu schließen. Durch das Training von Modellen, über diese internen Karten zu schließen, steigerten wir die Genauigkeit von 37,8 % auf 60,8 % (+23,0 %). Die Hinzufügung von Reinforcement Learning trieb die Leistung weiter auf 70,7 % (+32,9 %). Unsere zentrale Erkenntnis ist, dass ein solches Gerüst räumlicher mentaler Modelle, das aktiv interne strukturierte räumliche Repräsentationen mit flexiblen Schließprozessen konstruiert und nutzt, das Verständnis von nicht beobachtbarem Raum erheblich verbessert.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few
views, like humans do? Humans form spatial mental models, internal
representations of unseen space, to reason about layout, perspective, and
motion. Our new MindCube benchmark with 21,154 questions across 3,268 images
exposes this critical gap, where existing VLMs exhibit near-random performance.
Using MindCube, we systematically evaluate how well VLMs build robust spatial
mental models through representing positions (cognitive mapping), orientations
(perspective-taking), and dynamics (mental simulation for "what-if" movements).
We then explore three approaches to help VLMs approximate spatial mental
models, including unseen intermediate views, natural language reasoning chains,
and cognitive maps. The significant improvement comes from a synergistic
approach, "map-then-reason", that jointly trains the model to first generate a
cognitive map and then reason upon it. By training models to reason over these
internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding
reinforcement learning pushed performance even further to 70.7% (+32.9%). Our
key insight is that such scaffolding of spatial mental models, actively
constructing and utilizing internal structured spatial representations with
flexible reasoning processes, significantly improves understanding of
unobservable space.