Spatial-MLLM: Verbetering van MLLM-capaciteiten in visueel gebaseerde ruimtelijke intelligentie
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
May 29, 2025
Auteurs: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI
Samenvatting
Recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft de prestaties op 2D-visuele taken aanzienlijk verbeterd. Het verbeteren van hun ruimtelijke intelligentie blijft echter een uitdaging. Bestaande 3D-MLLMs zijn altijd afhankelijk van aanvullende 3D- of 2.5D-gegevens om ruimtelijk bewustzijn te integreren, wat hun bruikbaarheid beperkt in scenario's met alleen 2D-inputs, zoals afbeeldingen of video's. In dit artikel presenteren we Spatial-MLLM, een nieuw raamwerk voor visueel gebaseerd ruimtelijk redeneren vanuit puur 2D-waarnemingen. In tegenstelling tot conventionele video-MLLMs die vertrouwen op CLIP-gebaseerde visuele encoders die zijn geoptimaliseerd voor semantisch begrip, is onze belangrijkste inzicht het benutten van het sterke structuurvooroordeel van het feedforward visuele geometrie-foundationmodel. Specifiek stellen we een dual-encoder-architectuur voor: een vooraf getrainde 2D-visuele encoder om semantische kenmerken te extraheren, en een ruimtelijke encoder – geïnitialiseerd vanuit de backbone van het visuele geometriemodel – om 3D-structuurkenmerken te extraheren. Een connector integreert vervolgens beide kenmerken in geünificeerde visuele tokens voor een verbeterd ruimtelijk begrip. Bovendien stellen we een ruimtebewuste frame-samplingstrategie voor tijdens de inferentie, die de ruimtelijk informatieve frames van een videosequentie selecteert, waardoor het model zich zelfs bij een beperkte tokenlengte richt op frames die cruciaal zijn voor ruimtelijk redeneren. Naast architectuurverbeteringen construeren we de Spatial-MLLM-120k dataset en trainen we het model daarop met behulp van supervised fine-tuning en GRPO. Uitgebreide experimenten op verschillende real-world datasets tonen aan dat onze Spatial-MLLM state-of-the-art prestaties behaalt in een breed scala aan visueel gebaseerde ruimtelijke begrips- en redeneertaken. Projectpagina: https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have
significantly enhanced performance on 2D visual tasks. However, improving their
spatial intelligence remains a challenge. Existing 3D MLLMs always rely on
additional 3D or 2.5D data to incorporate spatial awareness, restricting their
utility in scenarios with only 2D inputs, such as images or videos. In this
paper, we present Spatial-MLLM, a novel framework for visual-based spatial
reasoning from purely 2D observations. Unlike conventional video MLLMs which
rely on CLIP-based visual encoders optimized for semantic understanding, our
key insight is to unleash the strong structure prior from the feed-forward
visual geometry foundation model. Specifically, we propose a dual-encoder
architecture: a pretrained 2D visual encoder to extract semantic features, and
a spatial encoder-initialized from the backbone of the visual geometry model-to
extract 3D structure features. A connector then integrates both features into
unified visual tokens for enhanced spatial understanding. Furthermore, we
propose a space-aware frame sampling strategy at inference time, which selects
the spatially informative frames of a video sequence, ensuring that even under
limited token length, the model focuses on frames critical for spatial
reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k
dataset and train the model on it using supervised fine-tuning and GRPO.
Extensive experiments on various real-world datasets demonstrate that our
spatial-MLLM achieves state-of-the-art performance in a wide range of
visual-based spatial understanding and reasoning tasks. Project page:
https://diankun-wu.github.io/Spatial-MLLM/.