ChatPaper.aiChatPaper

Multi-SpatialMLLM: 다중 프레임 공간 이해를 위한 다중 모달 대형 언어 모델

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

May 22, 2025
저자: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
cs.AI

초록

다중 모달 대형 언어 모델(MLLMs)은 시각적 작업에서 빠르게 발전해 왔지만, 그들의 공간 이해 능력은 여전히 단일 이미지에 국한되어 있어, 다중 프레임 추론이 필요한 로보틱스 및 기타 실제 응용 분야에 적합하지 않습니다. 본 논문에서는 깊이 지각, 시각적 대응, 동적 지각을 통합하여 MLLMs에 강력한 다중 프레임 공간 이해 능력을 부여하는 프레임워크를 제안합니다. 우리의 접근 방식의 핵심은 다양한 3D 및 4D 장면을 아우르는 2,700만 개 이상의 샘플로 구성된 새로운 대규모 데이터셋인 MultiSPA입니다. MultiSPA와 함께, 우리는 균일한 메트릭 하에서 다양한 공간 작업을 테스트하는 포괄적인 벤치마크를 소개합니다. 결과적으로 개발된 모델인 Multi-SpatialMLLM은 베이스라인 및 독점 시스템 대비 상당한 성능 향상을 달성하며, 확장 가능하고 일반화 가능한 다중 프레임 추론 능력을 입증합니다. 또한, 우리는 다중 작업에서의 이점과 도전적인 시나리오에서의 초기 능력 발현 징후를 관찰하고, 우리의 모델이 로보틱스를 위한 다중 프레임 보상 주석자로 어떻게 활용될 수 있는지를 보여줍니다.
English
Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.

Summary

AI-Generated Summary

PDF32May 23, 2025