Het Ontketenen van Ruimtelijk Redeneren in Multimodale Grote Taalmodellen via Tekstuele Representatie Gestuurd Redeneren

Samenvatting

Bestaande Multimodale Grote Taalmodellen (MLLM's) hebben moeite met 3D-ruimtelijk redeneren, omdat zij er niet in slagen gestructureerde abstracties te construeren van de 3D-omgeving die in videobeelden wordt afgebeeld. Om deze kloof te overbruggen, en geïnspireerd door cognitieve theorieën over allocentrisch ruimtelijk redeneren, onderzoeken we hoe MLLM's in staat gesteld kunnen worden om op tekst gebaseerde ruimtelijke representaties van video te modelleren en ermee te redeneren. Concreet introduceren we TRACE (Textual Representation of Allocentric Context from Egocentric Video), een promptmethode die MLLM's aanzet om op tekst gebaseerde representaties van 3D-omgevingen te genereren als tussenliggende redeneersporen voor nauwkeurigere beantwoording van ruimtelijke vragen. TRACE codeert metacontext, cameratrajecten en gedetailleerde objectentiteiten om gestructureerd ruimtelijk redeneren over egocentrische video's te ondersteunen. Uitgebreide experimenten op VSI-Bench en OST-Bench tonen aan dat TRACE aanzienlijke en consistente verbeteringen oplevert ten opzichte van eerdere promptstrategieën, over een diverse reeks MLLM-architecturen heen, die verschillende parameterschalen en trainingsschema's omvatten. Verder presenteren we ablatiestudies om onze ontwerpkeuzes te valideren, samen met gedetailleerde analyses die de knelpunten van 3D-ruimtelijk redeneren in MLLM's onderzoeken.

English

Existing Multimodal Large Language Models (MLLMs) struggle with 3D spatial reasoning, as they fail to construct structured abstractions of the 3D environment depicted in video inputs. To bridge this gap, drawing inspiration from cognitive theories of allocentric spatial reasoning, we investigate how to enable MLLMs to model and reason over text-based spatial representations of video. Specifically, we introduce Textual Representation of Allocentric Context from Egocentric Video (TRACE), a prompting method that induces MLLMs to generate text-based representations of 3D environments as intermediate reasoning traces for more accurate spatial question answering. TRACE encodes meta-context, camera trajectories, and detailed object entities to support structured spatial reasoning over egocentric videos. Extensive experiments on VSI-Bench and OST-Bench demonstrate that TRACE yields notable and consistent improvements over prior prompting strategies across a diverse range of MLLM backbones, spanning different parameter scales and training schemas. We further present ablation studies to validate our design choices, along with detailed analyses that probe the bottlenecks of 3D spatial reasoning in MLLMs.

Het Ontketenen van Ruimtelijk Redeneren in Multimodale Grote Taalmodellen via Tekstuele Representatie Gestuurd Redeneren

Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

Samenvatting

Support