Modelado Mental Espacial a partir de Vistas Limitadas
Spatial Mental Modeling from Limited Views
June 26, 2025
Autores: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI
Resumen
¿Pueden los Modelos de Visión y Lenguaje (VLMs, por sus siglas en inglés) imaginar una escena completa a partir de solo unas pocas vistas, como lo hacen los humanos? Los humanos forman modelos mentales espaciales, representaciones internas del espacio no visto, para razonar sobre la disposición, la perspectiva y el movimiento. Nuestro nuevo benchmark, MindCube, con 21,154 preguntas en 3,268 imágenes, expone esta brecha crítica, donde los VLMs existentes muestran un rendimiento casi aleatorio. Utilizando MindCube, evaluamos sistemáticamente qué tan bien los VLMs construyen modelos mentales espaciales robustos a través de la representación de posiciones (mapeo cognitivo), orientaciones (toma de perspectiva) y dinámicas (simulación mental para movimientos "qué pasaría si"). Luego exploramos tres enfoques para ayudar a los VLMs a aproximarse a los modelos mentales espaciales, incluyendo vistas intermedias no vistas, cadenas de razonamiento en lenguaje natural y mapas cognitivos. La mejora significativa proviene de un enfoque sinérgico, "mapear luego razonar", que entrena conjuntamente al modelo para primero generar un mapa cognitivo y luego razonar sobre él. Al entrenar modelos para razonar sobre estos mapas internos, aumentamos la precisión del 37.8% al 60.8% (+23.0%). La adición de aprendizaje por refuerzo impulsó aún más el rendimiento al 70.7% (+32.9%). Nuestra idea clave es que este andamiaje de modelos mentales espaciales, construyendo y utilizando activamente representaciones espaciales estructuradas internas con procesos de razonamiento flexibles, mejora significativamente la comprensión del espacio no observable.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few
views, like humans do? Humans form spatial mental models, internal
representations of unseen space, to reason about layout, perspective, and
motion. Our new MindCube benchmark with 21,154 questions across 3,268 images
exposes this critical gap, where existing VLMs exhibit near-random performance.
Using MindCube, we systematically evaluate how well VLMs build robust spatial
mental models through representing positions (cognitive mapping), orientations
(perspective-taking), and dynamics (mental simulation for "what-if" movements).
We then explore three approaches to help VLMs approximate spatial mental
models, including unseen intermediate views, natural language reasoning chains,
and cognitive maps. The significant improvement comes from a synergistic
approach, "map-then-reason", that jointly trains the model to first generate a
cognitive map and then reason upon it. By training models to reason over these
internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding
reinforcement learning pushed performance even further to 70.7% (+32.9%). Our
key insight is that such scaffolding of spatial mental models, actively
constructing and utilizing internal structured spatial representations with
flexible reasoning processes, significantly improves understanding of
unobservable space.