GAvatar: Avatar 3D Animabili con Apprendimento di Mesh Implicita

Abstract

Lo splatting gaussiano è emerso come una potente rappresentazione 3D che sfrutta i vantaggi sia delle rappresentazioni 3D esplicite (mesh) che implicite (NeRF). In questo articolo, cerchiamo di utilizzare lo splatting gaussiano per generare avatar animabili realistici a partire da descrizioni testuali, affrontando le limitazioni (ad esempio, flessibilità ed efficienza) imposte dalle rappresentazioni basate su mesh o NeRF. Tuttavia, un'applicazione ingenua dello splatting gaussiano non può generare avatar animabili di alta qualità e soffre di instabilità nell'apprendimento; inoltre, non è in grado di catturare geometrie fini degli avatar e spesso porta a parti del corpo degenerate. Per affrontare questi problemi, proponiamo innanzitutto una rappresentazione 3D gaussiana basata su primitive, in cui le gaussiane sono definite all'interno di primitive guidate dalla posa per facilitare l'animazione. In secondo luogo, per stabilizzare e ammortizzare l'apprendimento di milioni di gaussiane, proponiamo di utilizzare campi impliciti neurali per prevedere gli attributi delle gaussiane (ad esempio, i colori). Infine, per catturare geometrie fini degli avatar ed estrarre mesh dettagliate, proponiamo un nuovo approccio di apprendimento implicito di mesh basato su SDF per le gaussiane 3D che regolarizza le geometrie sottostanti ed estrae mesh testurizzate altamente dettagliate. Il nostro metodo proposto, GAvatar, consente la generazione su larga scala di avatar animabili diversi utilizzando solo prompt testuali. GAvatar supera significativamente i metodi esistenti in termini di qualità sia dell'aspetto che della geometria e raggiunge un rendering estremamente veloce (100 fps) a risoluzione 1K.

English

Gaussian splatting has emerged as a powerful 3D representation that harnesses the advantages of both explicit (mesh) and implicit (NeRF) 3D representations. In this paper, we seek to leverage Gaussian splatting to generate realistic animatable avatars from textual descriptions, addressing the limitations (e.g., flexibility and efficiency) imposed by mesh or NeRF-based representations. However, a naive application of Gaussian splatting cannot generate high-quality animatable avatars and suffers from learning instability; it also cannot capture fine avatar geometries and often leads to degenerate body parts. To tackle these problems, we first propose a primitive-based 3D Gaussian representation where Gaussians are defined inside pose-driven primitives to facilitate animation. Second, to stabilize and amortize the learning of millions of Gaussians, we propose to use neural implicit fields to predict the Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries and extract detailed meshes, we propose a novel SDF-based implicit mesh learning approach for 3D Gaussians that regularizes the underlying geometries and extracts highly detailed textured meshes. Our proposed method, GAvatar, enables the large-scale generation of diverse animatable avatars using only text prompts. GAvatar significantly surpasses existing methods in terms of both appearance and geometry quality, and achieves extremely fast rendering (100 fps) at 1K resolution.

GAvatar: Avatar 3D Animabili con Apprendimento di Mesh Implicita

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning

Abstract

Support