GAvatar: Avatares 3D Gaussianos Animables con Aprendizaje de Mallas Implícitas
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
December 18, 2023
Autores: Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal
cs.AI
Resumen
El splatting gaussiano ha surgido como una poderosa representación 3D que aprovecha las ventajas de las representaciones 3D tanto explícitas (mallas) como implícitas (NeRF). En este artículo, buscamos utilizar el splatting gaussiano para generar avatares animables realistas a partir de descripciones textuales, abordando las limitaciones (por ejemplo, flexibilidad y eficiencia) impuestas por las representaciones basadas en mallas o NeRF. Sin embargo, una aplicación ingenua del splatting gaussiano no puede generar avatares animables de alta calidad y sufre de inestabilidad en el aprendizaje; además, no puede capturar geometrías finas de los avatares y a menudo resulta en partes del cuerpo degeneradas. Para abordar estos problemas, primero proponemos una representación 3D gaussiana basada en primitivas, donde los gaussianos se definen dentro de primitivas impulsadas por la pose para facilitar la animación. Segundo, para estabilizar y amortizar el aprendizaje de millones de gaussianos, proponemos utilizar campos implícitos neuronales para predecir los atributos gaussianos (por ejemplo, colores). Finalmente, para capturar geometrías finas de los avatares y extraer mallas detalladas, proponemos un nuevo enfoque de aprendizaje de mallas implícitas basado en SDF para gaussianos 3D que regulariza las geometrías subyacentes y extrae mallas texturizadas altamente detalladas. Nuestro método propuesto, GAvatar, permite la generación a gran escala de diversos avatares animables utilizando únicamente indicaciones de texto. GAvatar supera significativamente a los métodos existentes en términos de calidad tanto de apariencia como de geometría, y logra una renderización extremadamente rápida (100 fps) en resolución 1K.
English
Gaussian splatting has emerged as a powerful 3D representation that harnesses
the advantages of both explicit (mesh) and implicit (NeRF) 3D representations.
In this paper, we seek to leverage Gaussian splatting to generate realistic
animatable avatars from textual descriptions, addressing the limitations (e.g.,
flexibility and efficiency) imposed by mesh or NeRF-based representations.
However, a naive application of Gaussian splatting cannot generate high-quality
animatable avatars and suffers from learning instability; it also cannot
capture fine avatar geometries and often leads to degenerate body parts. To
tackle these problems, we first propose a primitive-based 3D Gaussian
representation where Gaussians are defined inside pose-driven primitives to
facilitate animation. Second, to stabilize and amortize the learning of
millions of Gaussians, we propose to use neural implicit fields to predict the
Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries
and extract detailed meshes, we propose a novel SDF-based implicit mesh
learning approach for 3D Gaussians that regularizes the underlying geometries
and extracts highly detailed textured meshes. Our proposed method, GAvatar,
enables the large-scale generation of diverse animatable avatars using only
text prompts. GAvatar significantly surpasses existing methods in terms of both
appearance and geometry quality, and achieves extremely fast rendering (100
fps) at 1K resolution.