FMGS: Foundation Model Embedded 3D Gaussian Splatting für ganzheitliches 3D-Szenenverständnis
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding
January 3, 2024
Autoren: Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li
cs.AI
Zusammenfassung
Die präzise Wahrnehmung der geometrischen und semantischen Eigenschaften realer 3D-Objekte ist entscheidend für die Weiterentwicklung von Augmented Reality und robotischen Anwendungen. Zu diesem Zweck präsentieren wir (), das Vision-Language-Embeddings von Foundation-Modellen in 3D Gaussian Splatting (GS) integriert. Der wesentliche Beitrag dieser Arbeit ist eine effiziente Methode zur Rekonstruktion und Darstellung von 3D-Vision-Language-Modellen. Dies wird erreicht, indem Feature-Maps, die aus bildbasierten Foundation-Modellen generiert werden, in diejenigen destilliert werden, die aus unserem 3D-Modell gerendert werden. Um hochwertiges Rendering und schnelles Training zu gewährleisten, führen wir eine neuartige Szenendarstellung ein, die die Stärken von GS und Multi-Resolution Hash Encodings (MHE) kombiniert. Unser effektives Trainingsverfahren führt zudem einen Pixel-Alignment-Loss ein, der den gerenderten Feature-Abstand semantisch gleicher Entitäten nahe hält und dabei die pixelgenauen semantischen Grenzen berücksichtigt. Unsere Ergebnisse zeigen eine bemerkenswerte Multi-View-Semantikkonsistenz, die vielfältige nachgelagerte Aufgaben erleichtert und state-of-the-art Methoden bei der open-vocabulary sprachbasierten Objekterkennung um 10,2 Prozent übertrifft, obwohl wir 851-mal schneller in der Inferenz sind. Diese Forschung erkundet die Schnittstelle von Vision, Sprache und 3D-Szenendarstellung und ebnet den Weg für ein verbessertes Szenenverständnis in unkontrollierten realen Umgebungen. Wir planen, den Code nach Annahme des Papers zu veröffentlichen.
English
Precisely perceiving the geometric and semantic properties of real-world 3D
objects is crucial for the continued evolution of augmented reality and robotic
applications. To this end, we present (), which
incorporates vision-language embeddings of foundation models into 3D Gaussian
Splatting (GS). The key contribution of this work is an efficient method to
reconstruct and represent 3D vision-language models. This is achieved by
distilling feature maps generated from image-based foundation models into those
rendered from our 3D model. To ensure high-quality rendering and fast training,
we introduce a novel scene representation by integrating strengths from both GS
and multi-resolution hash encodings (MHE). Our effective training procedure
also introduces a pixel alignment loss that makes the rendered feature distance
of same semantic entities close, following the pixel-level semantic boundaries.
Our results demonstrate remarkable multi-view semantic consistency,
facilitating diverse downstream tasks, beating state-of-the-art methods by
10.2 percent on open-vocabulary language-based object detection,
despite that we are 851times faster for inference. This research
explores the intersection of vision, language, and 3D scene representation,
paving the way for enhanced scene understanding in uncontrolled real-world
environments. We plan to release the code upon paper acceptance.