FMGS: Modelo Fundacional Integrado en Proyección Gaussiana 3D para la Comprensión Holística de Escenas 3D
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding
January 3, 2024
Autores: Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li
cs.AI
Resumen
La percepción precisa de las propiedades geométricas y semánticas de objetos 3D del mundo real es crucial para la evolución continua de las aplicaciones de realidad aumentada y robótica. Con este fin, presentamos (), que incorpora incrustaciones de visión y lenguaje de modelos fundamentales en el método de 3D Gaussian Splatting (GS). La contribución clave de este trabajo es un método eficiente para reconstruir y representar modelos 3D de visión y lenguaje. Esto se logra destilando mapas de características generados por modelos fundamentales basados en imágenes en aquellos renderizados desde nuestro modelo 3D. Para garantizar una renderización de alta calidad y un entrenamiento rápido, introducimos una nueva representación de escena que integra las fortalezas tanto de GS como de codificaciones de hash multi-resolución (MHE). Nuestro procedimiento de entrenamiento efectivo también introduce una pérdida de alineación de píxeles que acerca la distancia de características renderizadas de entidades semánticas iguales, siguiendo los límites semánticos a nivel de píxel. Nuestros resultados demuestran una notable consistencia semántica multi-vista, facilitando diversas tareas posteriores, superando a los métodos más avanzados en un 10.2 por ciento en la detección de objetos basada en lenguaje de vocabulario abierto, a pesar de que somos 851 veces más rápidos en la inferencia. Esta investigación explora la intersección entre visión, lenguaje y representación de escenas 3D, allanando el camino para una comprensión mejorada de escenas en entornos reales no controlados. Planeamos liberar el código tras la aceptación del artículo.
English
Precisely perceiving the geometric and semantic properties of real-world 3D
objects is crucial for the continued evolution of augmented reality and robotic
applications. To this end, we present (), which
incorporates vision-language embeddings of foundation models into 3D Gaussian
Splatting (GS). The key contribution of this work is an efficient method to
reconstruct and represent 3D vision-language models. This is achieved by
distilling feature maps generated from image-based foundation models into those
rendered from our 3D model. To ensure high-quality rendering and fast training,
we introduce a novel scene representation by integrating strengths from both GS
and multi-resolution hash encodings (MHE). Our effective training procedure
also introduces a pixel alignment loss that makes the rendered feature distance
of same semantic entities close, following the pixel-level semantic boundaries.
Our results demonstrate remarkable multi-view semantic consistency,
facilitating diverse downstream tasks, beating state-of-the-art methods by
10.2 percent on open-vocabulary language-based object detection,
despite that we are 851times faster for inference. This research
explores the intersection of vision, language, and 3D scene representation,
paving the way for enhanced scene understanding in uncontrolled real-world
environments. We plan to release the code upon paper acceptance.