Spatial-MLLM: Усиление возможностей MLLM в визуально-ориентированном пространственном интеллекте
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
May 29, 2025
Авторы: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили производительность в задачах обработки 2D-изображений. Однако повышение их пространственного интеллекта остается сложной задачей. Существующие 3D MLLM всегда полагаются на дополнительные 3D или 2.5D данные для включения пространственного восприятия, что ограничивает их применимость в сценариях с использованием только 2D-входов, таких как изображения или видео. В данной статье мы представляем Spatial-MLLM — новый фреймворк для пространственного рассуждения на основе визуальных данных, использующий исключительно 2D-наблюдения. В отличие от традиционных видео MLLM, которые опираются на визуальные кодировщики на основе CLIP, оптимизированные для семантического понимания, наше ключевое наблюдение заключается в использовании сильного структурного априори из базовой модели визуальной геометрии с прямым распространением. В частности, мы предлагаем архитектуру с двумя кодировщиками: предобученный 2D визуальный кодировщик для извлечения семантических признаков и пространственный кодировщик, инициализированный на основе базовой модели визуальной геометрии, для извлечения признаков 3D-структуры. Затем соединитель интегрирует оба типа признаков в единые визуальные токены для улучшенного пространственного понимания. Кроме того, мы предлагаем стратегию выборки кадров с учетом пространства на этапе вывода, которая выбирает наиболее информативные для пространственного анализа кадры из видео, гарантируя, что даже при ограниченной длине токенов модель фокусируется на кадрах, критически важных для пространственного рассуждения. Помимо улучшений архитектуры, мы создаем набор данных Spatial-MLLM-120k и обучаем модель на нем с использованием контролируемой тонкой настройки и GRPO. Эксперименты на различных реальных наборах данных демонстрируют, что наша Spatial-MLLM достигает наилучших результатов в широком спектре задач визуального пространственного понимания и рассуждения. Страница проекта: https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have
significantly enhanced performance on 2D visual tasks. However, improving their
spatial intelligence remains a challenge. Existing 3D MLLMs always rely on
additional 3D or 2.5D data to incorporate spatial awareness, restricting their
utility in scenarios with only 2D inputs, such as images or videos. In this
paper, we present Spatial-MLLM, a novel framework for visual-based spatial
reasoning from purely 2D observations. Unlike conventional video MLLMs which
rely on CLIP-based visual encoders optimized for semantic understanding, our
key insight is to unleash the strong structure prior from the feed-forward
visual geometry foundation model. Specifically, we propose a dual-encoder
architecture: a pretrained 2D visual encoder to extract semantic features, and
a spatial encoder-initialized from the backbone of the visual geometry model-to
extract 3D structure features. A connector then integrates both features into
unified visual tokens for enhanced spatial understanding. Furthermore, we
propose a space-aware frame sampling strategy at inference time, which selects
the spatially informative frames of a video sequence, ensuring that even under
limited token length, the model focuses on frames critical for spatial
reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k
dataset and train the model on it using supervised fine-tuning and GRPO.
Extensive experiments on various real-world datasets demonstrate that our
spatial-MLLM achieves state-of-the-art performance in a wide range of
visual-based spatial understanding and reasoning tasks. Project page:
https://diankun-wu.github.io/Spatial-MLLM/.Summary
AI-Generated Summary