ChatPaper.aiChatPaper

Multi-SpatialMLLM: Многофреймовое пространственное понимание с использованием мультимодальных крупных языковых моделей

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

May 22, 2025
Авторы: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) значительно продвинулись в решении визуальных задач, однако их пространственное понимание ограничивается отдельными изображениями, что делает их малопригодными для робототехники и других реальных приложений, требующих анализа нескольких кадров. В данной работе мы предлагаем фреймворк для надежного многокадрового пространственного понимания MLLMs, интегрируя восприятие глубины, визуальное соответствие и динамическое восприятие. Основой нашего подхода является набор данных MultiSPA — новый масштабный сборник, содержащий более 27 миллионов образцов, охватывающих разнообразные 3D и 4D сцены. Вместе с MultiSPA мы представляем комплексный бенчмарк, который тестирует широкий спектр пространственных задач с использованием единых метрик. Наша итоговая модель, Multi-SpatialMLLM, демонстрирует значительное превосходство над базовыми и проприетарными системами, показывая масштабируемое и обобщаемое многокадровое рассуждение. Мы также наблюдаем преимущества в многозадачных сценариях и ранние признаки возникновения новых способностей в сложных условиях, а также демонстрируем, как наша модель может служить аннотатором наград для робототехники на основе анализа нескольких кадров.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.

Summary

AI-Generated Summary

PDF42May 23, 2025