M3: Memoria Multimodal 3D-Espacial
M3: 3D-Spatial MultiModal Memory
March 20, 2025
Autores: Xueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng, Jianglong Ye, Sifei Liu, Xiaolong Wang
cs.AI
Resumen
Presentamos 3D Spatial MultiModal Memory (M3), un sistema de memoria multimodal diseñado para retener información sobre escenas estáticas de tamaño mediano a través de fuentes de video para la percepción visual. Al integrar técnicas de 3D Gaussian Splatting con modelos fundacionales, M3 construye una memoria multimodal capaz de renderizar representaciones de características a través de diferentes niveles de granularidad, abarcando un amplio espectro de conocimiento. En nuestra exploración, identificamos dos desafíos clave en trabajos previos sobre el splatting de características: (1) las limitaciones computacionales al almacenar características de alta dimensión para cada primitiva gaussiana, y (2) la desalineación o pérdida de información entre las características destiladas y las características de los modelos fundacionales. Para abordar estos desafíos, proponemos M3 con componentes clave de elementos principales de la escena y atención de memoria gaussiana, permitiendo un entrenamiento e inferencia eficientes. Para validar M3, realizamos evaluaciones cuantitativas exhaustivas de similitud de características y tareas posteriores, así como visualizaciones cualitativas para resaltar el rastro de píxeles de la atención de memoria gaussiana. Nuestro enfoque abarca una amplia gama de modelos fundacionales, incluyendo modelos de visión y lenguaje (VLMs), modelos de percepción y modelos grandes multimodales y de lenguaje (LMMs/LLMs). Además, para demostrar la aplicabilidad en el mundo real, implementamos el campo de características de M3 en escenas interiores en un robot cuadrúpedo. Cabe destacar que afirmamos que M3 es el primer trabajo en abordar los desafíos centrales de compresión en la destilación de características 3D.
English
We present 3D Spatial MultiModal Memory (M3), a multimodal memory system
designed to retain information about medium-sized static scenes through video
sources for visual perception. By integrating 3D Gaussian Splatting techniques
with foundation models, M3 builds a multimodal memory capable of rendering
feature representations across granularities, encompassing a wide range of
knowledge. In our exploration, we identify two key challenges in previous works
on feature splatting: (1) computational constraints in storing high-dimensional
features for each Gaussian primitive, and (2) misalignment or information loss
between distilled features and foundation model features. To address these
challenges, we propose M3 with key components of principal scene components and
Gaussian memory attention, enabling efficient training and inference. To
validate M3, we conduct comprehensive quantitative evaluations of feature
similarity and downstream tasks, as well as qualitative visualizations to
highlight the pixel trace of Gaussian memory attention. Our approach
encompasses a diverse range of foundation models, including vision-language
models (VLMs), perception models, and large multimodal and language models
(LMMs/LLMs). Furthermore, to demonstrate real-world applicability, we deploy
M3's feature field in indoor scenes on a quadruped robot. Notably, we claim
that M3 is the first work to address the core compression challenges in 3D
feature distillation.Summary
AI-Generated Summary