Multi-SpatialMLLM: Räumliches Verständnis über mehrere Frames mit Multi-Modalen Großen Sprachmodellen
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
May 22, 2025
Autoren: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) haben sich in visuellen Aufgaben rasant weiterentwickelt, doch ihr räumliches Verständnis beschränkt sich weiterhin auf Einzelbilder, was sie für Robotik und andere reale Anwendungen, die eine Mehrbild-Argumentation erfordern, ungeeignet macht. In diesem Artikel schlagen wir ein Framework vor, um MLLMs mit robustem Mehrbild-Raumverständnis auszustatten, indem wir Tiefenwahrnehmung, visuelle Korrespondenz und dynamische Wahrnehmung integrieren. Kern unseres Ansatzes ist der MultiSPA-Datensatz, eine neuartige, groß angelegte Sammlung von mehr als 27 Millionen Proben, die diverse 3D- und 4D-Szenen umfasst. Neben MultiSPA führen wir einen umfassenden Benchmark ein, der ein breites Spektrum räumlicher Aufgaben unter einheitlichen Metriken testet. Unser resultierendes Modell, Multi-SpatialMLLM, erzielt signifikante Verbesserungen gegenüber Baseline- und proprietären Systemen und demonstriert skalierbare, generalisierbare Mehrbild-Argumentation. Wir beobachten weiterhin Mehrfachaufgaben-Vorteile und frühe Anzeichen von emergenten Fähigkeiten in anspruchsvollen Szenarien und zeigen, wie unser Modell als Mehrbild-Belohnungsannotator für die Robotik dienen kann.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual
tasks, yet their spatial understanding remains limited to single images,
leaving them ill-suited for robotics and other real-world applications that
require multi-frame reasoning. In this paper, we propose a framework to equip
MLLMs with robust multi-frame spatial understanding by integrating depth
perception, visual correspondence, and dynamic perception. Central to our
approach is the MultiSPA dataset, a novel, large-scale collection of more than
27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we
introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks
under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves
significant gains over baselines and proprietary systems, demonstrating
scalable, generalizable multi-frame reasoning. We further observe multi-task
benefits and early indications of emergent capabilities in challenging
scenarios, and showcase how our model can serve as a multi-frame reward
annotator for robotics.Summary
AI-Generated Summary