Multi-SpatialMLLM: Compreensão Espacial Multi-Quadro com Modelos de Linguagem de Grande Escala Multimodais
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
May 22, 2025
Autores: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala (MLLMs) avançaram rapidamente em tarefas visuais, mas sua compreensão espacial ainda se limita a imagens únicas, tornando-os inadequados para robótica e outras aplicações do mundo real que exigem raciocínio multiframe. Neste artigo, propomos um framework para equipar MLLMs com uma compreensão espacial multiframe robusta, integrando percepção de profundidade, correspondência visual e percepção dinâmica. O elemento central da nossa abordagem é o conjunto de dados MultiSPA, uma coleção nova e em larga escala com mais de 27 milhões de amostras abrangendo diversas cenas 3D e 4D. Juntamente com o MultiSPA, introduzimos um benchmark abrangente que testa um amplo espectro de tarefas espaciais sob métricas uniformes. Nosso modelo resultante, Multi-SpatialMLLM, alcança ganhos significativos em relação a sistemas de linha de base e proprietários, demonstrando raciocínio multiframe escalável e generalizável. Observamos ainda benefícios multitarefa e indícios precoces de capacidades emergentes em cenários desafiadores, e mostramos como nosso modelo pode servir como um anotador de recompensas multiframe para robótica.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual
tasks, yet their spatial understanding remains limited to single images,
leaving them ill-suited for robotics and other real-world applications that
require multi-frame reasoning. In this paper, we propose a framework to equip
MLLMs with robust multi-frame spatial understanding by integrating depth
perception, visual correspondence, and dynamic perception. Central to our
approach is the MultiSPA dataset, a novel, large-scale collection of more than
27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we
introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks
under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves
significant gains over baselines and proprietary systems, demonstrating
scalable, generalizable multi-frame reasoning. We further observe multi-task
benefits and early indications of emergent capabilities in challenging
scenarios, and showcase how our model can serve as a multi-frame reward
annotator for robotics.