Multi-SpatialMLLM : Compréhension spatiale multi-images avec des modèles de langage multi-modaux de grande échelle

papers.abstract

Les modèles de langage multi-modaux de grande envergure (MLLMs) ont rapidement progressé dans les tâches visuelles, mais leur compréhension spatiale reste limitée à des images uniques, les rendant peu adaptés à la robotique et à d'autres applications réelles nécessitant un raisonnement multi-images. Dans cet article, nous proposons un cadre pour doter les MLLMs d'une compréhension spatiale multi-images robuste en intégrant la perception de la profondeur, la correspondance visuelle et la perception dynamique. Au cœur de notre approche se trouve le jeu de données MultiSPA, une collection novatrice et à grande échelle de plus de 27 millions d'échantillons couvrant des scènes 3D et 4D variées. Accompagnant MultiSPA, nous introduisons un benchmark complet qui teste un large éventail de tâches spatiales selon des métriques uniformes. Notre modèle résultant, Multi-SpatialMLLM, obtient des gains significatifs par rapport aux systèmes de référence et propriétaires, démontrant un raisonnement multi-images scalable et généralisable. Nous observons également des bénéfices multi-tâches et des signes précoces de capacités émergentes dans des scénarios complexes, et montrons comment notre modèle peut servir d'annotateur de récompense multi-images pour la robotique.

English

Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.

Multi-SpatialMLLM : Compréhension spatiale multi-images avec des modèles de langage multi-modaux de grande échelle

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

papers.abstract

Support