Multi-SpatialMLLM : Compréhension spatiale multi-images avec des modèles de langage multi-modaux de grande échelle
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
May 22, 2025
Auteurs: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI
Résumé
Les modèles de langage multi-modaux de grande envergure (MLLMs) ont rapidement progressé dans les tâches visuelles, mais leur compréhension spatiale reste limitée à des images uniques, les rendant peu adaptés à la robotique et à d'autres applications réelles nécessitant un raisonnement multi-images. Dans cet article, nous proposons un cadre pour doter les MLLMs d'une compréhension spatiale multi-images robuste en intégrant la perception de la profondeur, la correspondance visuelle et la perception dynamique. Au cœur de notre approche se trouve le jeu de données MultiSPA, une collection novatrice et à grande échelle de plus de 27 millions d'échantillons couvrant des scènes 3D et 4D variées. Accompagnant MultiSPA, nous introduisons un benchmark complet qui teste un large éventail de tâches spatiales selon des métriques uniformes. Notre modèle résultant, Multi-SpatialMLLM, obtient des gains significatifs par rapport aux systèmes de référence et propriétaires, démontrant un raisonnement multi-images scalable et généralisable. Nous observons également des bénéfices multi-tâches et des signes précoces de capacités émergentes dans des scénarios complexes, et montrons comment notre modèle peut servir d'annotateur de récompense multi-images pour la robotique.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual
tasks, yet their spatial understanding remains limited to single images,
leaving them ill-suited for robotics and other real-world applications that
require multi-frame reasoning. In this paper, we propose a framework to equip
MLLMs with robust multi-frame spatial understanding by integrating depth
perception, visual correspondence, and dynamic perception. Central to our
approach is the MultiSPA dataset, a novel, large-scale collection of more than
27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we
introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks
under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves
significant gains over baselines and proprietary systems, demonstrating
scalable, generalizable multi-frame reasoning. We further observe multi-task
benefits and early indications of emergent capabilities in challenging
scenarios, and showcase how our model can serve as a multi-frame reward
annotator for robotics.Summary
AI-Generated Summary