ChatPaper.aiChatPaper

Denken in Ruimte: Hoe Multimodale Grote Taalmodellen Ruimtes Zien, Onthouden en Oproepen

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

December 18, 2024
Auteurs: Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie
cs.AI

Samenvatting

Mensen bezitten de visueel-ruimtelijke intelligentie om ruimtes te onthouden vanuit opeenvolgende visuele observaties. Maar kunnen Multimodale Grote Taalmodellen (MLLM's) die zijn getraind op video-datasets op miljoenen schaal ook "ruimtelijk denken" vanuit video's? We introduceren een nieuw op video gebaseerd visueel-ruimtelijk intelligentie benchmark (VSI-Bench) van meer dan 5.000 vraag-antwoordparen, en ontdekken dat MLLM's competitieve - zij het ondermenselijke - visueel-ruimtelijke intelligentie vertonen. We onderzoeken modellen om uit te drukken hoe ze ruimtelijk denken, zowel linguïstisch als visueel, en ontdekken dat hoewel ruimtelijke redeneervaardigheden de belangrijkste bottleneck blijven voor MLLM's om een hogere benchmarkprestatie te behalen, lokale wereldmodellen en ruimtelijk bewustzijn wel naar voren komen binnen deze modellen. Opmerkelijk is dat heersende linguïstische redeneertechnieken (bijv. keten-van-gedachten, zelfconsistentie, boom-van-gedachten) de prestaties niet verbeteren, terwijl expliciet genereren van cognitieve kaarten tijdens vraagbeantwoording de ruimtelijke afstandsvermogen van MLLM's verbetert.
English
Humans possess the visual-spatial intelligence to remember spaces from sequential visual observations. However, can Multimodal Large Language Models (MLLMs) trained on million-scale video datasets also ``think in space'' from videos? We present a novel video-based visual-spatial intelligence benchmark (VSI-Bench) of over 5,000 question-answer pairs, and find that MLLMs exhibit competitive - though subhuman - visual-spatial intelligence. We probe models to express how they think in space both linguistically and visually and find that while spatial reasoning capabilities remain the primary bottleneck for MLLMs to reach higher benchmark performance, local world models and spatial awareness do emerge within these models. Notably, prevailing linguistic reasoning techniques (e.g., chain-of-thought, self-consistency, tree-of-thoughts) fail to improve performance, whereas explicitly generating cognitive maps during question-answering enhances MLLMs' spatial distance ability.
PDF242December 19, 2024