Пространственное ментальное моделирование на основе ограниченного обзора
Spatial Mental Modeling from Limited Views
June 26, 2025
Авторы: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI
Аннотация
Могут ли модели, объединяющие зрение и язык (Vision Language Models, VLMs), представить полную сцену по нескольким видам, как это делают люди? Люди формируют пространственные ментальные модели — внутренние представления невидимого пространства — для рассуждений о компоновке, перспективе и движении. Наш новый бенчмарк MindCube, содержащий 21 154 вопроса по 3 268 изображениям, выявляет этот критический пробел: существующие VLMs демонстрируют близкое к случайному качество работы. Используя MindCube, мы систематически оцениваем, насколько хорошо VLMs строят устойчивые пространственные ментальные модели, представляя позиции (когнитивное картографирование), ориентации (принятие перспективы) и динамику (ментальное моделирование для "что, если" движений). Затем мы исследуем три подхода, помогающие VLMs приблизиться к пространственным ментальным моделям, включая невидимые промежуточные виды, цепочки рассуждений на естественном языке и когнитивные карты. Значительное улучшение достигается за счет синергетического подхода "карта-затем-рассуждение", который совместно обучает модель сначала генерировать когнитивную карту, а затем рассуждать на её основе. Обучая модели рассуждать над этими внутренними картами, мы повысили точность с 37,8% до 60,8% (+23,0%). Добавление обучения с подкреплением ещё больше увеличило производительность до 70,7% (+32,9%). Наше ключевое понимание заключается в том, что такое структурирование пространственных ментальных моделей — активное построение и использование внутренних структурированных пространственных представлений с гибкими процессами рассуждения — значительно улучшает понимание ненаблюдаемого пространства.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few
views, like humans do? Humans form spatial mental models, internal
representations of unseen space, to reason about layout, perspective, and
motion. Our new MindCube benchmark with 21,154 questions across 3,268 images
exposes this critical gap, where existing VLMs exhibit near-random performance.
Using MindCube, we systematically evaluate how well VLMs build robust spatial
mental models through representing positions (cognitive mapping), orientations
(perspective-taking), and dynamics (mental simulation for "what-if" movements).
We then explore three approaches to help VLMs approximate spatial mental
models, including unseen intermediate views, natural language reasoning chains,
and cognitive maps. The significant improvement comes from a synergistic
approach, "map-then-reason", that jointly trains the model to first generate a
cognitive map and then reason upon it. By training models to reason over these
internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding
reinforcement learning pushed performance even further to 70.7% (+32.9%). Our
key insight is that such scaffolding of spatial mental models, actively
constructing and utilizing internal structured spatial representations with
flexible reasoning processes, significantly improves understanding of
unobservable space.