Spatial-MLLM: Potenciando las capacidades de los MLLM en la inteligencia espacial basada en visión
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
May 29, 2025
Autores: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han mejorado significativamente el rendimiento en tareas visuales 2D. Sin embargo, mejorar su inteligencia espacial sigue siendo un desafío. Los MLLMs 3D existentes siempre dependen de datos adicionales 3D o 2.5D para incorporar conciencia espacial, lo que restringe su utilidad en escenarios con solo entradas 2D, como imágenes o videos. En este artículo, presentamos Spatial-MLLM, un marco novedoso para el razonamiento espacial basado en visuales a partir de observaciones puramente 2D. A diferencia de los MLLMs de video convencionales que dependen de codificadores visuales basados en CLIP optimizados para la comprensión semántica, nuestra idea clave es liberar el fuerte prior estructural del modelo base de geometría visual de avance. Específicamente, proponemos una arquitectura de doble codificador: un codificador visual 2D preentrenado para extraer características semánticas, y un codificador espacial inicializado a partir del núcleo del modelo de geometría visual para extraer características de estructura 3D. Un conector luego integra ambas características en tokens visuales unificados para una comprensión espacial mejorada. Además, proponemos una estrategia de muestreo de fotogramas consciente del espacio en el momento de la inferencia, que selecciona los fotogramas espacialmente informativos de una secuencia de video, asegurando que, incluso con una longitud de token limitada, el modelo se enfoque en los fotogramas críticos para el razonamiento espacial. Más allá de las mejoras en la arquitectura, construimos el conjunto de datos Spatial-MLLM-120k y entrenamos el modelo en él utilizando ajuste fino supervisado y GRPO. Experimentos extensos en varios conjuntos de datos del mundo real demuestran que nuestro Spatial-MLLM logra un rendimiento de vanguardia en una amplia gama de tareas de comprensión y razonamiento espacial basadas en visuales. Página del proyecto: https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have
significantly enhanced performance on 2D visual tasks. However, improving their
spatial intelligence remains a challenge. Existing 3D MLLMs always rely on
additional 3D or 2.5D data to incorporate spatial awareness, restricting their
utility in scenarios with only 2D inputs, such as images or videos. In this
paper, we present Spatial-MLLM, a novel framework for visual-based spatial
reasoning from purely 2D observations. Unlike conventional video MLLMs which
rely on CLIP-based visual encoders optimized for semantic understanding, our
key insight is to unleash the strong structure prior from the feed-forward
visual geometry foundation model. Specifically, we propose a dual-encoder
architecture: a pretrained 2D visual encoder to extract semantic features, and
a spatial encoder-initialized from the backbone of the visual geometry model-to
extract 3D structure features. A connector then integrates both features into
unified visual tokens for enhanced spatial understanding. Furthermore, we
propose a space-aware frame sampling strategy at inference time, which selects
the spatially informative frames of a video sequence, ensuring that even under
limited token length, the model focuses on frames critical for spatial
reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k
dataset and train the model on it using supervised fine-tuning and GRPO.
Extensive experiments on various real-world datasets demonstrate that our
spatial-MLLM achieves state-of-the-art performance in a wide range of
visual-based spatial understanding and reasoning tasks. Project page:
https://diankun-wu.github.io/Spatial-MLLM/.Summary
AI-Generated Summary