ChatPaper.aiChatPaper

Spatial-MLLM: Potenziamento delle capacità dei MLLM nell'intelligenza spaziale basata sul visivo

Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

May 29, 2025
Autori: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI

Abstract

I recenti progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno significativamente migliorato le prestazioni nei compiti visivi 2D. Tuttavia, migliorare la loro intelligenza spaziale rimane una sfida. Gli attuali MLLM 3D si basano sempre su dati aggiuntivi 3D o 2.5D per incorporare la consapevolezza spaziale, limitando la loro utilità in scenari con soli input 2D, come immagini o video. In questo articolo, presentiamo Spatial-MLLM, un nuovo framework per il ragionamento spaziale basato su osservazioni puramente 2D. A differenza dei convenzionali MLLM video che si basano su encoder visivi basati su CLIP ottimizzati per la comprensione semantica, la nostra intuizione chiave è sfruttare il forte prior strutturale proveniente dal modello di base della geometria visiva feed-forward. Nello specifico, proponiamo un'architettura a doppio encoder: un encoder visivo 2D pre-addestrato per estrarre caratteristiche semantiche e un encoder spaziale inizializzato dal backbone del modello di geometria visiva per estrarre caratteristiche strutturali 3D. Un connettore integra poi entrambe le caratteristiche in token visivi unificati per una migliore comprensione spaziale. Inoltre, proponiamo una strategia di campionamento dei frame consapevole dello spazio al momento dell'inferenza, che seleziona i frame informativi spazialmente di una sequenza video, assicurando che, anche con una lunghezza limitata dei token, il modello si concentri sui frame critici per il ragionamento spaziale. Oltre ai miglioramenti architetturali, costruiamo il dataset Spatial-MLLM-120k e addestriamo il modello su di esso utilizzando il fine-tuning supervisionato e GRPO. Esperimenti estesi su vari dataset del mondo reale dimostrano che il nostro Spatial-MLLM raggiunge prestazioni all'avanguardia in un'ampia gamma di compiti di comprensione e ragionamento spaziale basati su dati visivi. Pagina del progetto: https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced performance on 2D visual tasks. However, improving their spatial intelligence remains a challenge. Existing 3D MLLMs always rely on additional 3D or 2.5D data to incorporate spatial awareness, restricting their utility in scenarios with only 2D inputs, such as images or videos. In this paper, we present Spatial-MLLM, a novel framework for visual-based spatial reasoning from purely 2D observations. Unlike conventional video MLLMs which rely on CLIP-based visual encoders optimized for semantic understanding, our key insight is to unleash the strong structure prior from the feed-forward visual geometry foundation model. Specifically, we propose a dual-encoder architecture: a pretrained 2D visual encoder to extract semantic features, and a spatial encoder-initialized from the backbone of the visual geometry model-to extract 3D structure features. A connector then integrates both features into unified visual tokens for enhanced spatial understanding. Furthermore, we propose a space-aware frame sampling strategy at inference time, which selects the spatially informative frames of a video sequence, ensuring that even under limited token length, the model focuses on frames critical for spatial reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k dataset and train the model on it using supervised fine-tuning and GRPO. Extensive experiments on various real-world datasets demonstrate that our spatial-MLLM achieves state-of-the-art performance in a wide range of visual-based spatial understanding and reasoning tasks. Project page: https://diankun-wu.github.io/Spatial-MLLM/.
PDF683May 30, 2025