GAvatar: Animierbare 3D-Gauß-Avatare mit implizitem Mesh-Lernen

papers.abstract

Gaussian Splatting hat sich als leistungsstarke 3D-Darstellung etabliert, die die Vorteile sowohl expliziter (Mesh) als auch impliziter (NeRF) 3D-Darstellungen nutzt. In diesem Artikel streben wir an, Gaussian Splatting zu verwenden, um realistische animierbare Avatare aus textuellen Beschreibungen zu generieren und dabei die Einschränkungen (z. B. Flexibilität und Effizienz) zu überwinden, die durch Mesh- oder NeRF-basierte Darstellungen auferlegt werden. Eine naive Anwendung von Gaussian Splatting kann jedoch keine hochwertigen animierbaren Avatare erzeugen und leidet unter Lerninstabilität; es kann auch feine Avatar-Geometrien nicht erfassen und führt oft zu degenerierten Körperteilen. Um diese Probleme zu lösen, schlagen wir zunächst eine primitive-basierte 3D-Gaussian-Darstellung vor, bei der Gaussians innerhalb von posengesteuerten Primitiven definiert werden, um die Animation zu erleichtern. Zweitens schlagen wir vor, um das Lernen von Millionen von Gaussians zu stabilisieren und zu amortisieren, neuronale implizite Felder zu verwenden, um die Gaussian-Attribute (z. B. Farben) vorherzusagen. Schließlich schlagen wir, um feine Avatar-Geometrien zu erfassen und detaillierte Meshes zu extrahieren, einen neuartigen SDF-basierten impliziten Mesh-Lernansatz für 3D-Gaussians vor, der die zugrunde liegenden Geometrien regularisiert und hochdetaillierte texturierte Meshes extrahiert. Unsere vorgeschlagene Methode, GAvatar, ermöglicht die großflächige Erzeugung vielfältiger animierbarer Avatare unter Verwendung nur von Textprompts. GAvatar übertrifft bestehende Methoden deutlich in Bezug auf sowohl das Erscheinungsbild als auch die geometrische Qualität und erreicht eine extrem schnelle Darstellung (100 fps) bei einer Auflösung von 1K.

English

Gaussian splatting has emerged as a powerful 3D representation that harnesses the advantages of both explicit (mesh) and implicit (NeRF) 3D representations. In this paper, we seek to leverage Gaussian splatting to generate realistic animatable avatars from textual descriptions, addressing the limitations (e.g., flexibility and efficiency) imposed by mesh or NeRF-based representations. However, a naive application of Gaussian splatting cannot generate high-quality animatable avatars and suffers from learning instability; it also cannot capture fine avatar geometries and often leads to degenerate body parts. To tackle these problems, we first propose a primitive-based 3D Gaussian representation where Gaussians are defined inside pose-driven primitives to facilitate animation. Second, to stabilize and amortize the learning of millions of Gaussians, we propose to use neural implicit fields to predict the Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries and extract detailed meshes, we propose a novel SDF-based implicit mesh learning approach for 3D Gaussians that regularizes the underlying geometries and extracts highly detailed textured meshes. Our proposed method, GAvatar, enables the large-scale generation of diverse animatable avatars using only text prompts. GAvatar significantly surpasses existing methods in terms of both appearance and geometry quality, and achieves extremely fast rendering (100 fps) at 1K resolution.

GAvatar: Animierbare 3D-Gauß-Avatare mit implizitem Mesh-Lernen

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning

papers.abstract

Support