Spatial-MLLM: Aprimorando as Capacidades de MLLM na Inteligência Espacial Baseada em Visão
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
May 29, 2025
Autores: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI
Resumo
Os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm melhorado significativamente o desempenho em tarefas visuais 2D. No entanto, aprimorar sua inteligência espacial continua sendo um desafio. Os MLLMs 3D existentes sempre dependem de dados adicionais 3D ou 2.5D para incorporar consciência espacial, limitando sua utilidade em cenários com apenas entradas 2D, como imagens ou vídeos. Neste artigo, apresentamos o Spatial-MLLM, uma nova estrutura para raciocínio espacial baseado em observações puramente 2D. Diferente dos MLLMs de vídeo convencionais, que dependem de codificadores visuais baseados em CLIP otimizados para compreensão semântica, nossa principal ideia é liberar o forte prior estrutural do modelo de fundação de geometria visual feed-forward. Especificamente, propomos uma arquitetura de codificador duplo: um codificador visual 2D pré-treinado para extrair características semânticas e um codificador espacial inicializado a partir da estrutura principal do modelo de geometria visual para extrair características de estrutura 3D. Um conector então integra ambas as características em tokens visuais unificados para uma compreensão espacial aprimorada. Além disso, propomos uma estratégia de amostragem de quadros consciente do espaço no momento da inferência, que seleciona os quadros espacialmente informativos de uma sequência de vídeo, garantindo que, mesmo com comprimento limitado de tokens, o modelo se concentre nos quadros críticos para o raciocínio espacial. Além das melhorias na arquitetura, construímos o conjunto de dados Spatial-MLLM-120k e treinamos o modelo nele usando ajuste fino supervisionado e GRPO. Experimentos extensivos em vários conjuntos de dados do mundo real demonstram que nosso Spatial-MLLM alcança desempenho de ponta em uma ampla gama de tarefas de compreensão e raciocínio espacial baseadas em visão. Página do projeto: https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have
significantly enhanced performance on 2D visual tasks. However, improving their
spatial intelligence remains a challenge. Existing 3D MLLMs always rely on
additional 3D or 2.5D data to incorporate spatial awareness, restricting their
utility in scenarios with only 2D inputs, such as images or videos. In this
paper, we present Spatial-MLLM, a novel framework for visual-based spatial
reasoning from purely 2D observations. Unlike conventional video MLLMs which
rely on CLIP-based visual encoders optimized for semantic understanding, our
key insight is to unleash the strong structure prior from the feed-forward
visual geometry foundation model. Specifically, we propose a dual-encoder
architecture: a pretrained 2D visual encoder to extract semantic features, and
a spatial encoder-initialized from the backbone of the visual geometry model-to
extract 3D structure features. A connector then integrates both features into
unified visual tokens for enhanced spatial understanding. Furthermore, we
propose a space-aware frame sampling strategy at inference time, which selects
the spatially informative frames of a video sequence, ensuring that even under
limited token length, the model focuses on frames critical for spatial
reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k
dataset and train the model on it using supervised fine-tuning and GRPO.
Extensive experiments on various real-world datasets demonstrate that our
spatial-MLLM achieves state-of-the-art performance in a wide range of
visual-based spatial understanding and reasoning tasks. Project page:
https://diankun-wu.github.io/Spatial-MLLM/.