Spatial-MLLM : Amélioration des capacités des MLLM dans l'intelligence spatiale basée sur la vision
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
May 29, 2025
Auteurs: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI
Résumé
Les récents progrès dans les modèles de langage multimodaux de grande envergure (MLLM) ont considérablement amélioré les performances sur les tâches visuelles en 2D. Cependant, l'amélioration de leur intelligence spatiale reste un défi. Les MLLM 3D existants reposent toujours sur des données 3D ou 2.5D supplémentaires pour intégrer la conscience spatiale, limitant ainsi leur utilité dans des scénarios où seules des entrées 2D sont disponibles, comme des images ou des vidéos. Dans cet article, nous présentons Spatial-MLLM, un nouveau cadre pour le raisonnement spatial basé sur des observations purement 2D. Contrairement aux MLLM vidéo conventionnels qui s'appuient sur des encodeurs visuels basés sur CLIP optimisés pour la compréhension sémantique, notre idée clé est de libérer le fort a priori de structure provenant du modèle de fondation de géométrie visuelle à propagation avant. Plus précisément, nous proposons une architecture à double encodeur : un encodeur visuel 2D pré-entraîné pour extraire des caractéristiques sémantiques, et un encodeur spatial initialisé à partir de la structure principale du modèle de géométrie visuelle pour extraire des caractéristiques de structure 3D. Un connecteur intègre ensuite ces deux caractéristiques en des tokens visuels unifiés pour une compréhension spatiale améliorée. De plus, nous proposons une stratégie d'échantillonnage de trames consciente de l'espace au moment de l'inférence, qui sélectionne les trames spatialement informatives d'une séquence vidéo, garantissant ainsi que même avec une longueur de token limitée, le modèle se concentre sur les trames cruciales pour le raisonnement spatial. Au-delà des améliorations architecturales, nous construisons le jeu de données Spatial-MLLM-120k et entraînons le modèle sur celui-ci en utilisant un réglage fin supervisé et GRPO. Des expériences approfondies sur divers jeux de données du monde réel démontrent que notre Spatial-MLLM atteint des performances de pointe dans un large éventail de tâches de compréhension et de raisonnement spatial basées sur la vision. Page du projet : https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have
significantly enhanced performance on 2D visual tasks. However, improving their
spatial intelligence remains a challenge. Existing 3D MLLMs always rely on
additional 3D or 2.5D data to incorporate spatial awareness, restricting their
utility in scenarios with only 2D inputs, such as images or videos. In this
paper, we present Spatial-MLLM, a novel framework for visual-based spatial
reasoning from purely 2D observations. Unlike conventional video MLLMs which
rely on CLIP-based visual encoders optimized for semantic understanding, our
key insight is to unleash the strong structure prior from the feed-forward
visual geometry foundation model. Specifically, we propose a dual-encoder
architecture: a pretrained 2D visual encoder to extract semantic features, and
a spatial encoder-initialized from the backbone of the visual geometry model-to
extract 3D structure features. A connector then integrates both features into
unified visual tokens for enhanced spatial understanding. Furthermore, we
propose a space-aware frame sampling strategy at inference time, which selects
the spatially informative frames of a video sequence, ensuring that even under
limited token length, the model focuses on frames critical for spatial
reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k
dataset and train the model on it using supervised fine-tuning and GRPO.
Extensive experiments on various real-world datasets demonstrate that our
spatial-MLLM achieves state-of-the-art performance in a wide range of
visual-based spatial understanding and reasoning tasks. Project page:
https://diankun-wu.github.io/Spatial-MLLM/.Summary
AI-Generated Summary