Multi-SpatialMLLM: Comprensión Espacial Multi-Marcos con Modelos de Lenguaje Grande Multi-Modales

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado rápidamente en tareas visuales, pero su comprensión espacial sigue limitada a imágenes individuales, lo que los hace poco adecuados para la robótica y otras aplicaciones del mundo real que requieren razonamiento multiframe. En este artículo, proponemos un marco para dotar a los MLLMs de una comprensión espacial multiframe robusta mediante la integración de percepción de profundidad, correspondencia visual y percepción dinámica. El núcleo de nuestro enfoque es el conjunto de datos MultiSPA, una colección novedosa y a gran escala de más de 27 millones de muestras que abarcan diversas escenas en 3D y 4D. Junto con MultiSPA, presentamos un benchmark integral que evalúa un amplio espectro de tareas espaciales bajo métricas uniformes. Nuestro modelo resultante, Multi-SpatialMLLM, logra mejoras significativas respecto a los sistemas de referencia y propietarios, demostrando un razonamiento multiframe escalable y generalizable. Además, observamos beneficios multitarea e indicios tempranos de capacidades emergentes en escenarios desafiantes, y mostramos cómo nuestro modelo puede servir como un anotador de recompensas multiframe para robótica.

English

Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.

Multi-SpatialMLLM: Comprensión Espacial Multi-Marcos con Modelos de Lenguaje Grande Multi-Modales

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

Resumen

Support