Multi-SpatialMLLM: Multi-Frame Ruimtelijk Begrip met Multi-Modale Grote Taalmodellen
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
May 22, 2025
Auteurs: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI
Samenvatting
Multi-modale grote taalmodellen (MLLMs) hebben snel vooruitgang geboekt in visuele taken, maar hun ruimtelijk begrip blijft beperkt tot afzonderlijke afbeeldingen, waardoor ze niet geschikt zijn voor robotica en andere real-world toepassingen die multi-frame redenering vereisen. In dit artikel stellen we een raamwerk voor om MLLMs te voorzien van robuust multi-frame ruimtelijk begrip door dieptewaarneming, visuele correspondentie en dynamische waarneming te integreren. Centraal in onze aanpak staat de MultiSPA-dataset, een nieuwe, grootschalige verzameling van meer dan 27 miljoen samples die diverse 3D- en 4D-scènes omvat. Naast MultiSPA introduceren we een uitgebreide benchmark die een breed scala aan ruimtelijke taken test onder uniforme metrieken. Ons resulterende model, Multi-SpatialMLLM, behaalt aanzienlijke verbeteringen ten opzichte van baseline- en propriëtaire systemen, wat schaalbare, generaliseerbare multi-frame redenering aantoont. We observeren verder multi-task voordelen en vroege aanwijzingen van opkomende capaciteiten in uitdagende scenario's, en laten zien hoe ons model kan dienen als een multi-frame beloningsannotator voor robotica.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual
tasks, yet their spatial understanding remains limited to single images,
leaving them ill-suited for robotics and other real-world applications that
require multi-frame reasoning. In this paper, we propose a framework to equip
MLLMs with robust multi-frame spatial understanding by integrating depth
perception, visual correspondence, and dynamic perception. Central to our
approach is the MultiSPA dataset, a novel, large-scale collection of more than
27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we
introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks
under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves
significant gains over baselines and proprietary systems, demonstrating
scalable, generalizable multi-frame reasoning. We further observe multi-task
benefits and early indications of emergent capabilities in challenging
scenarios, and showcase how our model can serve as a multi-frame reward
annotator for robotics.