Multi-SpatialMLLM: Comprensión Espacial Multi-Marcos con Modelos de Lenguaje Grande Multi-Modales
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
May 22, 2025
Autores: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado rápidamente en tareas visuales, pero su comprensión espacial sigue limitada a imágenes individuales, lo que los hace poco adecuados para la robótica y otras aplicaciones del mundo real que requieren razonamiento multiframe. En este artículo, proponemos un marco para dotar a los MLLMs de una comprensión espacial multiframe robusta mediante la integración de percepción de profundidad, correspondencia visual y percepción dinámica. El núcleo de nuestro enfoque es el conjunto de datos MultiSPA, una colección novedosa y a gran escala de más de 27 millones de muestras que abarcan diversas escenas en 3D y 4D. Junto con MultiSPA, presentamos un benchmark integral que evalúa un amplio espectro de tareas espaciales bajo métricas uniformes. Nuestro modelo resultante, Multi-SpatialMLLM, logra mejoras significativas respecto a los sistemas de referencia y propietarios, demostrando un razonamiento multiframe escalable y generalizable. Además, observamos beneficios multitarea e indicios tempranos de capacidades emergentes en escenarios desafiantes, y mostramos cómo nuestro modelo puede servir como un anotador de recompensas multiframe para robótica.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual
tasks, yet their spatial understanding remains limited to single images,
leaving them ill-suited for robotics and other real-world applications that
require multi-frame reasoning. In this paper, we propose a framework to equip
MLLMs with robust multi-frame spatial understanding by integrating depth
perception, visual correspondence, and dynamic perception. Central to our
approach is the MultiSPA dataset, a novel, large-scale collection of more than
27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we
introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks
under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves
significant gains over baselines and proprietary systems, demonstrating
scalable, generalizable multi-frame reasoning. We further observe multi-task
benefits and early indications of emergent capabilities in challenging
scenarios, and showcase how our model can serve as a multi-frame reward
annotator for robotics.Summary
AI-Generated Summary