Spatial-MLLM: 시각 기반 공간 지능에서 MLLM 능력 강화
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
May 29, 2025
저자: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI
초록
최근 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 발전으로 2D 시각적 작업에서의 성능이 크게 향상되었습니다. 그러나 이들의 공간 지능을 개선하는 것은 여전히 과제로 남아 있습니다. 기존의 3D MLLM들은 공간 인식을 통합하기 위해 항상 추가적인 3D 또는 2.5D 데이터에 의존하며, 이는 이미지나 비디오와 같은 2D 입력만 있는 시나리오에서의 유용성을 제한합니다. 본 논문에서는 순수 2D 관찰을 기반으로 한 시각적 공간 추론을 위한 새로운 프레임워크인 Spatial-MLLM을 제안합니다. 시맨틱 이해를 위해 최적화된 CLIP 기반 시각적 인코더에 의존하는 기존의 비디오 MLLM들과 달리, 우리의 핵심 통찰은 피드포워드 시각 기하학 기반 모델에서 강력한 구조적 사전 지식을 활용하는 것입니다. 구체적으로, 우리는 시맨틱 특징을 추출하기 위해 사전 훈련된 2D 시각적 인코더와 시각 기하학 모델의 백본에서 초기화된 공간 인코더를 통해 3D 구조 특징을 추출하는 이중 인코더 아키텍처를 제안합니다. 그런 다음 커넥터가 두 특징을 통합하여 향상된 공간 이해를 위한 통합 시각 토큰을 생성합니다. 또한, 우리는 추론 시 공간적으로 유익한 비디오 시퀀스의 프레임을 선택하는 공간 인식 프레임 샘플링 전략을 제안하여, 제한된 토큰 길이에서도 모델이 공간 추론에 중요한 프레임에 집중하도록 합니다. 아키텍처 개선 외에도, 우리는 Spatial-MLLM-120k 데이터셋을 구축하고 이를 사용하여 지도 미세 조정과 GRPO를 통해 모델을 훈련시켰습니다. 다양한 실제 데이터셋에 대한 광범위한 실험을 통해 우리의 Spatial-MLLM이 다양한 시각적 공간 이해 및 추론 작업에서 최첨단 성능을 달성함을 입증했습니다. 프로젝트 페이지: https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have
significantly enhanced performance on 2D visual tasks. However, improving their
spatial intelligence remains a challenge. Existing 3D MLLMs always rely on
additional 3D or 2.5D data to incorporate spatial awareness, restricting their
utility in scenarios with only 2D inputs, such as images or videos. In this
paper, we present Spatial-MLLM, a novel framework for visual-based spatial
reasoning from purely 2D observations. Unlike conventional video MLLMs which
rely on CLIP-based visual encoders optimized for semantic understanding, our
key insight is to unleash the strong structure prior from the feed-forward
visual geometry foundation model. Specifically, we propose a dual-encoder
architecture: a pretrained 2D visual encoder to extract semantic features, and
a spatial encoder-initialized from the backbone of the visual geometry model-to
extract 3D structure features. A connector then integrates both features into
unified visual tokens for enhanced spatial understanding. Furthermore, we
propose a space-aware frame sampling strategy at inference time, which selects
the spatially informative frames of a video sequence, ensuring that even under
limited token length, the model focuses on frames critical for spatial
reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k
dataset and train the model on it using supervised fine-tuning and GRPO.
Extensive experiments on various real-world datasets demonstrate that our
spatial-MLLM achieves state-of-the-art performance in a wide range of
visual-based spatial understanding and reasoning tasks. Project page:
https://diankun-wu.github.io/Spatial-MLLM/.Summary
AI-Generated Summary