Ruimtelijk Mentaal Modelleren vanuit Beperkte Perspectieven
Spatial Mental Modeling from Limited Views
June 26, 2025
Auteurs: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI
Samenvatting
Kunnen Vision Language Models (VLMs) de volledige scène voorstellen vanuit slechts enkele aanzichten, zoals mensen dat doen? Mensen vormen ruimtelijke mentale modellen, interne representaties van onzichtbare ruimte, om te redeneren over lay-out, perspectief en beweging. Onze nieuwe MindCube-benchmark met 21.154 vragen over 3.268 afbeeldingen legt dit kritieke gat bloot, waarbij bestaande VLMs bijna willekeurige prestaties vertonen. Met MindCube evalueren we systematisch hoe goed VLMs robuuste ruimtelijke mentale modellen opbouwen door posities (cognitieve mapping), oriëntaties (perspectiefname) en dynamiek (mentale simulatie voor "wat-als" bewegingen) te representeren. We onderzoeken vervolgens drie benaderingen om VLMs ruimtelijke mentale modellen te laten benaderen, waaronder onzichtbare tussenliggende aanzichten, redeneerketens in natuurlijke taal en cognitieve kaarten. De significante verbetering komt van een synergetische aanpak, "map-then-reason", waarbij het model gezamenlijk wordt getraind om eerst een cognitieve kaart te genereren en vervolgens daarop te redeneren. Door modellen te trainen om te redeneren over deze interne kaarten, verhoogden we de nauwkeurigheid van 37,8% naar 60,8% (+23,0%). Het toevoegen van reinforcement learning duwde de prestaties nog verder naar 70,7% (+32,9%). Onze belangrijkste inzicht is dat dergelijke ondersteuning van ruimtelijke mentale modellen, het actief construeren en gebruiken van interne gestructureerde ruimtelijke representaties met flexibele redeneerprocessen, het begrip van onwaarneembare ruimte aanzienlijk verbetert.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few
views, like humans do? Humans form spatial mental models, internal
representations of unseen space, to reason about layout, perspective, and
motion. Our new MindCube benchmark with 21,154 questions across 3,268 images
exposes this critical gap, where existing VLMs exhibit near-random performance.
Using MindCube, we systematically evaluate how well VLMs build robust spatial
mental models through representing positions (cognitive mapping), orientations
(perspective-taking), and dynamics (mental simulation for "what-if" movements).
We then explore three approaches to help VLMs approximate spatial mental
models, including unseen intermediate views, natural language reasoning chains,
and cognitive maps. The significant improvement comes from a synergistic
approach, "map-then-reason", that jointly trains the model to first generate a
cognitive map and then reason upon it. By training models to reason over these
internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding
reinforcement learning pushed performance even further to 70.7% (+32.9%). Our
key insight is that such scaffolding of spatial mental models, actively
constructing and utilizing internal structured spatial representations with
flexible reasoning processes, significantly improves understanding of
unobservable space.