ChatPaper.aiChatPaper

Multi-SpatialMLLM: Compreensão Espacial Multi-Quadro com Modelos de Linguagem de Grande Escala Multimodais

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

May 22, 2025
Autores: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI

Resumo

Modelos de linguagem multimodal de grande escala (MLLMs) avançaram rapidamente em tarefas visuais, mas sua compreensão espacial ainda se limita a imagens únicas, tornando-os inadequados para robótica e outras aplicações do mundo real que exigem raciocínio multiframe. Neste artigo, propomos um framework para equipar MLLMs com uma compreensão espacial multiframe robusta, integrando percepção de profundidade, correspondência visual e percepção dinâmica. O elemento central da nossa abordagem é o conjunto de dados MultiSPA, uma coleção nova e em larga escala com mais de 27 milhões de amostras abrangendo diversas cenas 3D e 4D. Juntamente com o MultiSPA, introduzimos um benchmark abrangente que testa um amplo espectro de tarefas espaciais sob métricas uniformes. Nosso modelo resultante, Multi-SpatialMLLM, alcança ganhos significativos em relação a sistemas de linha de base e proprietários, demonstrando raciocínio multiframe escalável e generalizável. Observamos ainda benefícios multitarefa e indícios precoces de capacidades emergentes em cenários desafiadores, e mostramos como nosso modelo pode servir como um anotador de recompensas multiframe para robótica.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.
PDF92December 14, 2025