ChatPaper.aiChatPaper

Multi-SpatialMLLM: Comprensión Espacial Multi-Marcos con Modelos de Lenguaje Grande Multi-Modales

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

May 22, 2025
Autores: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado rápidamente en tareas visuales, pero su comprensión espacial sigue limitada a imágenes individuales, lo que los hace poco adecuados para la robótica y otras aplicaciones del mundo real que requieren razonamiento multiframe. En este artículo, proponemos un marco para dotar a los MLLMs de una comprensión espacial multiframe robusta mediante la integración de percepción de profundidad, correspondencia visual y percepción dinámica. El núcleo de nuestro enfoque es el conjunto de datos MultiSPA, una colección novedosa y a gran escala de más de 27 millones de muestras que abarcan diversas escenas en 3D y 4D. Junto con MultiSPA, presentamos un benchmark integral que evalúa un amplio espectro de tareas espaciales bajo métricas uniformes. Nuestro modelo resultante, Multi-SpatialMLLM, logra mejoras significativas respecto a los sistemas de referencia y propietarios, demostrando un razonamiento multiframe escalable y generalizable. Además, observamos beneficios multitarea e indicios tempranos de capacidades emergentes en escenarios desafiantes, y mostramos cómo nuestro modelo puede servir como un anotador de recompensas multiframe para robótica.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.

Summary

AI-Generated Summary

PDF42May 23, 2025