Modélisation mentale spatiale à partir de vues limitées
Spatial Mental Modeling from Limited Views
June 26, 2025
Auteurs: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI
Résumé
Les modèles de vision et langage (VLMs) peuvent-ils imaginer une scène complète à partir de quelques vues seulement, comme le font les humains ? Les humains forment des modèles mentaux spatiaux, des représentations internes de l'espace non visible, pour raisonner sur la disposition, la perspective et le mouvement. Notre nouveau benchmark MindCube, avec 21 154 questions réparties sur 3 268 images, met en lumière cette lacune critique, où les VLMs existants affichent des performances quasi aléatoires. En utilisant MindCube, nous évaluons systématiquement dans quelle mesure les VLMs construisent des modèles mentaux spatiaux robustes en représentant les positions (cartographie cognitive), les orientations (prise de perspective) et les dynamiques (simulation mentale pour les mouvements "et si"). Nous explorons ensuite trois approches pour aider les VLMs à approximer des modèles mentaux spatiaux, incluant des vues intermédiaires non visibles, des chaînes de raisonnement en langage naturel et des cartes cognitives. L'amélioration significative provient d'une approche synergique, "cartographier puis raisonner", qui entraîne conjointement le modèle à générer d'abord une carte cognitive puis à raisonner sur celle-ci. En entraînant les modèles à raisonner sur ces cartes internes, nous avons augmenté la précision de 37,8 % à 60,8 % (+23,0 %). L'ajout de l'apprentissage par renforcement a encore poussé les performances à 70,7 % (+32,9 %). Notre idée clé est qu'un tel échafaudage de modèles mentaux spatiaux, construisant et utilisant activement des représentations spatiales structurées internes avec des processus de raisonnement flexibles, améliore significativement la compréhension de l'espace non observable.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few
views, like humans do? Humans form spatial mental models, internal
representations of unseen space, to reason about layout, perspective, and
motion. Our new MindCube benchmark with 21,154 questions across 3,268 images
exposes this critical gap, where existing VLMs exhibit near-random performance.
Using MindCube, we systematically evaluate how well VLMs build robust spatial
mental models through representing positions (cognitive mapping), orientations
(perspective-taking), and dynamics (mental simulation for "what-if" movements).
We then explore three approaches to help VLMs approximate spatial mental
models, including unseen intermediate views, natural language reasoning chains,
and cognitive maps. The significant improvement comes from a synergistic
approach, "map-then-reason", that jointly trains the model to first generate a
cognitive map and then reason upon it. By training models to reason over these
internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding
reinforcement learning pushed performance even further to 70.7% (+32.9%). Our
key insight is that such scaffolding of spatial mental models, actively
constructing and utilizing internal structured spatial representations with
flexible reasoning processes, significantly improves understanding of
unobservable space.