ChatPaper.aiChatPaper

Multi-SpatialMLLM: Comprensione Spaziale Multi-Frame con Modelli Linguistici Multi-Modali di Grande Scala

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

May 22, 2025
Autori: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto rapidi progressi nei compiti visivi, ma la loro comprensione spaziale rimane limitata a singole immagini, rendendoli poco adatti per la robotica e altre applicazioni del mondo reale che richiedono ragionamenti su più frame. In questo articolo, proponiamo un framework per dotare gli MLLM di una solida comprensione spaziale multi-frame, integrando la percezione della profondità, la corrispondenza visiva e la percezione dinamica. Al centro del nostro approccio c'è il dataset MultiSPA, una nuova e ampia raccolta di oltre 27 milioni di campioni che abbracciano scene 3D e 4D diverse. Accanto a MultiSPA, introduciamo un benchmark completo che testa un'ampia gamma di compiti spaziali con metriche uniformi. Il nostro modello risultante, Multi-SpatialMLLM, ottiene miglioramenti significativi rispetto ai sistemi di base e proprietari, dimostrando un ragionamento multi-frame scalabile e generalizzabile. Osserviamo inoltre benefici multi-task e primi segnali di capacità emergenti in scenari complessi, e mostriamo come il nostro modello possa servire come annotatore di ricompense multi-frame per la robotica.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.
PDF92May 23, 2025