GAvatar: Animierbare 3D-Gauß-Avatare mit implizitem Mesh-Lernen
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
December 18, 2023
Autoren: Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal
cs.AI
Zusammenfassung
Gaussian Splatting hat sich als leistungsstarke 3D-Darstellung etabliert, die die Vorteile sowohl expliziter (Mesh) als auch impliziter (NeRF) 3D-Darstellungen nutzt. In diesem Artikel streben wir an, Gaussian Splatting zu verwenden, um realistische animierbare Avatare aus textuellen Beschreibungen zu generieren und dabei die Einschränkungen (z. B. Flexibilität und Effizienz) zu überwinden, die durch Mesh- oder NeRF-basierte Darstellungen auferlegt werden. Eine naive Anwendung von Gaussian Splatting kann jedoch keine hochwertigen animierbaren Avatare erzeugen und leidet unter Lerninstabilität; es kann auch feine Avatar-Geometrien nicht erfassen und führt oft zu degenerierten Körperteilen. Um diese Probleme zu lösen, schlagen wir zunächst eine primitive-basierte 3D-Gaussian-Darstellung vor, bei der Gaussians innerhalb von posengesteuerten Primitiven definiert werden, um die Animation zu erleichtern. Zweitens schlagen wir vor, um das Lernen von Millionen von Gaussians zu stabilisieren und zu amortisieren, neuronale implizite Felder zu verwenden, um die Gaussian-Attribute (z. B. Farben) vorherzusagen. Schließlich schlagen wir, um feine Avatar-Geometrien zu erfassen und detaillierte Meshes zu extrahieren, einen neuartigen SDF-basierten impliziten Mesh-Lernansatz für 3D-Gaussians vor, der die zugrunde liegenden Geometrien regularisiert und hochdetaillierte texturierte Meshes extrahiert. Unsere vorgeschlagene Methode, GAvatar, ermöglicht die großflächige Erzeugung vielfältiger animierbarer Avatare unter Verwendung nur von Textprompts. GAvatar übertrifft bestehende Methoden deutlich in Bezug auf sowohl das Erscheinungsbild als auch die geometrische Qualität und erreicht eine extrem schnelle Darstellung (100 fps) bei einer Auflösung von 1K.
English
Gaussian splatting has emerged as a powerful 3D representation that harnesses
the advantages of both explicit (mesh) and implicit (NeRF) 3D representations.
In this paper, we seek to leverage Gaussian splatting to generate realistic
animatable avatars from textual descriptions, addressing the limitations (e.g.,
flexibility and efficiency) imposed by mesh or NeRF-based representations.
However, a naive application of Gaussian splatting cannot generate high-quality
animatable avatars and suffers from learning instability; it also cannot
capture fine avatar geometries and often leads to degenerate body parts. To
tackle these problems, we first propose a primitive-based 3D Gaussian
representation where Gaussians are defined inside pose-driven primitives to
facilitate animation. Second, to stabilize and amortize the learning of
millions of Gaussians, we propose to use neural implicit fields to predict the
Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries
and extract detailed meshes, we propose a novel SDF-based implicit mesh
learning approach for 3D Gaussians that regularizes the underlying geometries
and extracts highly detailed textured meshes. Our proposed method, GAvatar,
enables the large-scale generation of diverse animatable avatars using only
text prompts. GAvatar significantly surpasses existing methods in terms of both
appearance and geometry quality, and achieves extremely fast rendering (100
fps) at 1K resolution.