M3: Memoria Multimodal 3D-Espacial

Resumen

Presentamos 3D Spatial MultiModal Memory (M3), un sistema de memoria multimodal diseñado para retener información sobre escenas estáticas de tamaño mediano a través de fuentes de video para la percepción visual. Al integrar técnicas de 3D Gaussian Splatting con modelos fundacionales, M3 construye una memoria multimodal capaz de renderizar representaciones de características a través de diferentes niveles de granularidad, abarcando un amplio espectro de conocimiento. En nuestra exploración, identificamos dos desafíos clave en trabajos previos sobre el splatting de características: (1) las limitaciones computacionales al almacenar características de alta dimensión para cada primitiva gaussiana, y (2) la desalineación o pérdida de información entre las características destiladas y las características de los modelos fundacionales. Para abordar estos desafíos, proponemos M3 con componentes clave de elementos principales de la escena y atención de memoria gaussiana, permitiendo un entrenamiento e inferencia eficientes. Para validar M3, realizamos evaluaciones cuantitativas exhaustivas de similitud de características y tareas posteriores, así como visualizaciones cualitativas para resaltar el rastro de píxeles de la atención de memoria gaussiana. Nuestro enfoque abarca una amplia gama de modelos fundacionales, incluyendo modelos de visión y lenguaje (VLMs), modelos de percepción y modelos grandes multimodales y de lenguaje (LMMs/LLMs). Además, para demostrar la aplicabilidad en el mundo real, implementamos el campo de características de M3 en escenas interiores en un robot cuadrúpedo. Cabe destacar que afirmamos que M3 es el primer trabajo en abordar los desafíos centrales de compresión en la destilación de características 3D.

English

We present 3D Spatial MultiModal Memory (M3), a multimodal memory system designed to retain information about medium-sized static scenes through video sources for visual perception. By integrating 3D Gaussian Splatting techniques with foundation models, M3 builds a multimodal memory capable of rendering feature representations across granularities, encompassing a wide range of knowledge. In our exploration, we identify two key challenges in previous works on feature splatting: (1) computational constraints in storing high-dimensional features for each Gaussian primitive, and (2) misalignment or information loss between distilled features and foundation model features. To address these challenges, we propose M3 with key components of principal scene components and Gaussian memory attention, enabling efficient training and inference. To validate M3, we conduct comprehensive quantitative evaluations of feature similarity and downstream tasks, as well as qualitative visualizations to highlight the pixel trace of Gaussian memory attention. Our approach encompasses a diverse range of foundation models, including vision-language models (VLMs), perception models, and large multimodal and language models (LMMs/LLMs). Furthermore, to demonstrate real-world applicability, we deploy M3's feature field in indoor scenes on a quadruped robot. Notably, we claim that M3 is the first work to address the core compression challenges in 3D feature distillation.

M3: Memoria Multimodal 3D-Espacial

M3: 3D-Spatial MultiModal Memory

Resumen

Support