Modelagem Mental Espacial a partir de Visões Limitadas
Spatial Mental Modeling from Limited Views
June 26, 2025
Autores: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI
Resumo
Os modelos de visão e linguagem (VLMs) conseguem imaginar a cena completa a partir de poucas visualizações, como os humanos fazem? Os humanos formam modelos mentais espaciais, representações internas de espaços não vistos, para raciocinar sobre layout, perspectiva e movimento. Nosso novo benchmark MindCube, com 21.154 questões em 3.268 imagens, expõe essa lacuna crítica, onde os VLMs existentes apresentam desempenho quase aleatório. Usando o MindCube, avaliamos sistematicamente o quão bem os VLMs constroem modelos mentais espaciais robustos por meio da representação de posições (mapeamento cognitivo), orientações (tomada de perspectiva) e dinâmicas (simulação mental para movimentos "e se"). Em seguida, exploramos três abordagens para ajudar os VLMs a aproximar modelos mentais espaciais, incluindo visualizações intermediárias não vistas, cadeias de raciocínio em linguagem natural e mapas cognitivos. A melhoria significativa vem de uma abordagem sinérgica, "mapear-depois-raciocinar", que treina o modelo conjuntamente para primeiro gerar um mapa cognitivo e depois raciocinar sobre ele. Ao treinar modelos para raciocinar sobre esses mapas internos, aumentamos a precisão de 37,8% para 60,8% (+23,0%). A adição de aprendizado por reforço elevou o desempenho ainda mais para 70,7% (+32,9%). Nossa principal percepção é que esse suporte de modelos mentais espaciais, construindo e utilizando ativamente representações espaciais estruturadas internas com processos de raciocínio flexíveis, melhora significativamente a compreensão do espaço não observável.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few
views, like humans do? Humans form spatial mental models, internal
representations of unseen space, to reason about layout, perspective, and
motion. Our new MindCube benchmark with 21,154 questions across 3,268 images
exposes this critical gap, where existing VLMs exhibit near-random performance.
Using MindCube, we systematically evaluate how well VLMs build robust spatial
mental models through representing positions (cognitive mapping), orientations
(perspective-taking), and dynamics (mental simulation for "what-if" movements).
We then explore three approaches to help VLMs approximate spatial mental
models, including unseen intermediate views, natural language reasoning chains,
and cognitive maps. The significant improvement comes from a synergistic
approach, "map-then-reason", that jointly trains the model to first generate a
cognitive map and then reason upon it. By training models to reason over these
internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding
reinforcement learning pushed performance even further to 70.7% (+32.9%). Our
key insight is that such scaffolding of spatial mental models, actively
constructing and utilizing internal structured spatial representations with
flexible reasoning processes, significantly improves understanding of
unobservable space.