ChatPaper.aiChatPaper

Modellazione Mentale Spaziale da Viste Limitati

Spatial Mental Modeling from Limited Views

June 26, 2025
Autori: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
cs.AI

Abstract

I modelli linguistico-visivi (VLMs) possono immaginare l'intera scena a partire da poche visualizzazioni, come fanno gli esseri umani? Gli esseri umani formano modelli mentali spaziali, rappresentazioni interne di spazi non visti, per ragionare su layout, prospettiva e movimento. Il nostro nuovo benchmark MindCube, con 21.154 domande su 3.268 immagini, evidenzia questo divario critico, in cui i VLMs esistenti mostrano prestazioni quasi casuali. Utilizzando MindCube, valutiamo sistematicamente quanto bene i VLMs costruiscono modelli mentali spaziali robusti rappresentando posizioni (mappatura cognitiva), orientamenti (presa di prospettiva) e dinamiche (simulazione mentale per movimenti "what-if"). Esploriamo quindi tre approcci per aiutare i VLMs ad approssimare modelli mentali spaziali, inclusi punti di vista intermedi non visti, catene di ragionamento in linguaggio naturale e mappe cognitive. Il miglioramento significativo deriva da un approccio sinergico, "mappare poi ragionare", che addestra congiuntamente il modello a generare prima una mappa cognitiva e poi a ragionare su di essa. Addestrando i modelli a ragionare su queste mappe interne, abbiamo aumentato l'accuratezza dal 37,8% al 60,8% (+23,0%). L'aggiunta del reinforcement learning ha spinto ulteriormente le prestazioni al 70,7% (+32,9%). La nostra intuizione chiave è che tale impalcatura di modelli mentali spaziali, costruendo e utilizzando attivamente rappresentazioni spaziali strutturate interne con processi di ragionamento flessibili, migliora significativamente la comprensione dello spazio non osservabile.
English
Can Vision Language Models (VLMs) imagine the full scene from just a few views, like humans do? Humans form spatial mental models, internal representations of unseen space, to reason about layout, perspective, and motion. Our new MindCube benchmark with 21,154 questions across 3,268 images exposes this critical gap, where existing VLMs exhibit near-random performance. Using MindCube, we systematically evaluate how well VLMs build robust spatial mental models through representing positions (cognitive mapping), orientations (perspective-taking), and dynamics (mental simulation for "what-if" movements). We then explore three approaches to help VLMs approximate spatial mental models, including unseen intermediate views, natural language reasoning chains, and cognitive maps. The significant improvement comes from a synergistic approach, "map-then-reason", that jointly trains the model to first generate a cognitive map and then reason upon it. By training models to reason over these internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding reinforcement learning pushed performance even further to 70.7% (+32.9%). Our key insight is that such scaffolding of spatial mental models, actively constructing and utilizing internal structured spatial representations with flexible reasoning processes, significantly improves understanding of unobservable space.
PDF121June 30, 2025