Spatial-MLLM: Verbesserung der Fähigkeiten von MLLM in der visuell basierten räumlichen Intelligenz
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
May 29, 2025
Autoren: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
cs.AI
Zusammenfassung
Aktuelle Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben die Leistung bei 2D-Visualisierungsaufgaben erheblich verbessert. Die Verbesserung ihrer räumlichen Intelligenz bleibt jedoch eine Herausforderung. Bestehende 3D-MLLMs stützen sich stets auf zusätzliche 3D- oder 2,5D-Daten, um räumliches Bewusstsein zu integrieren, was ihre Nützlichkeit in Szenarien mit ausschließlich 2D-Eingaben wie Bildern oder Videos einschränkt. In diesem Artikel stellen wir Spatial-MLLM vor, ein neuartiges Framework für visuell basiertes räumliches Schließen ausschließlich aus 2D-Beobachtungen. Im Gegensatz zu herkömmlichen Video-MLLMs, die auf CLIP-basierten visuellen Encodern angewiesen sind, die für semantisches Verständnis optimiert sind, besteht unser Schlüsselansatz darin, die starke Strukturpräferenz aus dem Feed-Forward-Modell der visuellen Geometrie freizusetzen. Konkret schlagen wir eine Dual-Encoder-Architektur vor: einen vortrainierten 2D-visuellen Encoder zur Extraktion semantischer Merkmale und einen räumlichen Encoder, der aus dem Backbone des visuellen Geometriemodells initialisiert wird, um 3D-Strukturmerkmale zu extrahieren. Ein Connector integriert dann beide Merkmale in einheitliche visuelle Tokens für ein verbessertes räumliches Verständnis. Darüber hinaus schlagen wir eine raumbewusste Frame-Sampling-Strategie zur Inferenzzeit vor, die die räumlich informativen Frames einer Videosequenz auswählt und sicherstellt, dass sich das Modell selbst bei begrenzter Token-Länge auf die für das räumliche Schließen entscheidenden Frames konzentriert. Neben Architekturverbesserungen erstellen wir den Spatial-MLLM-120k-Datensatz und trainieren das Modell darauf mittels überwachtem Fine-Tuning und GRPO. Umfangreiche Experimente auf verschiedenen realen Datensätzen zeigen, dass unser Spatial-MLLM in einer Vielzahl von visuell basierten räumlichen Verständnis- und Schließaufgaben state-of-the-art-Leistungen erzielt. Projektseite: https://diankun-wu.github.io/Spatial-MLLM/.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have
significantly enhanced performance on 2D visual tasks. However, improving their
spatial intelligence remains a challenge. Existing 3D MLLMs always rely on
additional 3D or 2.5D data to incorporate spatial awareness, restricting their
utility in scenarios with only 2D inputs, such as images or videos. In this
paper, we present Spatial-MLLM, a novel framework for visual-based spatial
reasoning from purely 2D observations. Unlike conventional video MLLMs which
rely on CLIP-based visual encoders optimized for semantic understanding, our
key insight is to unleash the strong structure prior from the feed-forward
visual geometry foundation model. Specifically, we propose a dual-encoder
architecture: a pretrained 2D visual encoder to extract semantic features, and
a spatial encoder-initialized from the backbone of the visual geometry model-to
extract 3D structure features. A connector then integrates both features into
unified visual tokens for enhanced spatial understanding. Furthermore, we
propose a space-aware frame sampling strategy at inference time, which selects
the spatially informative frames of a video sequence, ensuring that even under
limited token length, the model focuses on frames critical for spatial
reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k
dataset and train the model on it using supervised fine-tuning and GRPO.
Extensive experiments on various real-world datasets demonstrate that our
spatial-MLLM achieves state-of-the-art performance in a wide range of
visual-based spatial understanding and reasoning tasks. Project page:
https://diankun-wu.github.io/Spatial-MLLM/.Summary
AI-Generated Summary