ChatPaper.aiChatPaper

M3: 3D 공간 멀티모달 메모리

M3: 3D-Spatial MultiModal Memory

March 20, 2025
저자: Xueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng, Jianglong Ye, Sifei Liu, Xiaolong Wang
cs.AI

초록

중간 규모의 정적 장면에 대한 정보를 비디오 소스를 통해 시각적으로 인지하고 유지하기 위해 설계된 다중모달 메모리 시스템인 3D 공간 다중모달 메모리(M3)를 소개합니다. M3는 3D 가우시안 스플래팅 기법과 파운데이션 모델을 통합하여 다양한 지식을 포괄하는 세분화된 수준의 특징 표현을 렌더링할 수 있는 다중모달 메모리를 구축합니다. 우리의 연구에서, 기존의 특징 스플래팅 연구에서 두 가지 주요 문제점을 확인했습니다: (1) 각 가우시안 프리미티브에 대해 고차원 특징을 저장하는 데 따른 계산적 제약, 그리고 (2) 추출된 특징과 파운데이션 모델 특징 간의 불일치 또는 정보 손실. 이러한 문제를 해결하기 위해, 주요 장면 구성 요소와 가우시안 메모리 어텐션을 핵심 구성 요소로 하는 M3를 제안하여 효율적인 학습과 추론을 가능하게 합니다. M3의 유효성을 검증하기 위해, 특징 유사성과 다운스트림 작업에 대한 포괄적인 정량적 평가를 수행하고, 가우시안 메모리 어텐션의 픽셀 추적을 강조하는 정성적 시각화를 제공합니다. 우리의 접근 방식은 시각-언어 모델(VLM), 인지 모델, 대형 다중모달 및 언어 모델(LMM/LLM)을 포함한 다양한 파운데이션 모델을 포괄합니다. 또한, 실제 적용 가능성을 입증하기 위해, M3의 특징 필드를 사족 보행 로봇의 실내 장면에 배치합니다. 특히, M3는 3D 특징 추출의 핵심 압축 문제를 해결한 첫 번째 연구라고 주장합니다.
English
We present 3D Spatial MultiModal Memory (M3), a multimodal memory system designed to retain information about medium-sized static scenes through video sources for visual perception. By integrating 3D Gaussian Splatting techniques with foundation models, M3 builds a multimodal memory capable of rendering feature representations across granularities, encompassing a wide range of knowledge. In our exploration, we identify two key challenges in previous works on feature splatting: (1) computational constraints in storing high-dimensional features for each Gaussian primitive, and (2) misalignment or information loss between distilled features and foundation model features. To address these challenges, we propose M3 with key components of principal scene components and Gaussian memory attention, enabling efficient training and inference. To validate M3, we conduct comprehensive quantitative evaluations of feature similarity and downstream tasks, as well as qualitative visualizations to highlight the pixel trace of Gaussian memory attention. Our approach encompasses a diverse range of foundation models, including vision-language models (VLMs), perception models, and large multimodal and language models (LMMs/LLMs). Furthermore, to demonstrate real-world applicability, we deploy M3's feature field in indoor scenes on a quadruped robot. Notably, we claim that M3 is the first work to address the core compression challenges in 3D feature distillation.

Summary

AI-Generated Summary

PDF152March 21, 2025