Multi-SpatialMLLM: Räumliches Verständnis über mehrere Frames mit Multi-Modalen Großen Sprachmodellen

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben sich in visuellen Aufgaben rasant weiterentwickelt, doch ihr räumliches Verständnis beschränkt sich weiterhin auf Einzelbilder, was sie für Robotik und andere reale Anwendungen, die eine Mehrbild-Argumentation erfordern, ungeeignet macht. In diesem Artikel schlagen wir ein Framework vor, um MLLMs mit robustem Mehrbild-Raumverständnis auszustatten, indem wir Tiefenwahrnehmung, visuelle Korrespondenz und dynamische Wahrnehmung integrieren. Kern unseres Ansatzes ist der MultiSPA-Datensatz, eine neuartige, groß angelegte Sammlung von mehr als 27 Millionen Proben, die diverse 3D- und 4D-Szenen umfasst. Neben MultiSPA führen wir einen umfassenden Benchmark ein, der ein breites Spektrum räumlicher Aufgaben unter einheitlichen Metriken testet. Unser resultierendes Modell, Multi-SpatialMLLM, erzielt signifikante Verbesserungen gegenüber Baseline- und proprietären Systemen und demonstriert skalierbare, generalisierbare Mehrbild-Argumentation. Wir beobachten weiterhin Mehrfachaufgaben-Vorteile und frühe Anzeichen von emergenten Fähigkeiten in anspruchsvollen Szenarien und zeigen, wie unser Modell als Mehrbild-Belohnungsannotator für die Robotik dienen kann.

English

Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.

Multi-SpatialMLLM: Räumliches Verständnis über mehrere Frames mit Multi-Modalen Großen Sprachmodellen

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

papers.abstract

Support