ZeroAvatar: Generación de avatares 3D sin entrenamiento previo a partir de una sola imagen
ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image
May 25, 2023
Autores: Zhenzhen Weng, Zeyu Wang, Serena Yeung
cs.AI
Resumen
Los recientes avances en la generación de texto a imagen han permitido un progreso significativo en la generación de formas 3D en modo zero-shot. Esto se logra mediante la destilación de puntuaciones, una metodología que utiliza modelos de difusión preentrenados de texto a imagen para optimizar los parámetros de una representación neural 3D, como el campo de radiancia neural (NeRF). Aunque muestran resultados prometedores, los métodos existentes a menudo no logran preservar la geometría de formas complejas, como los cuerpos humanos. Para abordar este desafío, presentamos ZeroAvatar, un método que introduce un previo explícito del cuerpo humano 3D en el proceso de optimización. Específicamente, primero estimamos y refinamos los parámetros de un cuerpo humano paramétrico a partir de una sola imagen. Luego, durante la optimización, utilizamos el cuerpo paramétrico posado como una restricción geométrica adicional para regularizar tanto el modelo de difusión como el campo de densidad subyacente. Por último, proponemos un término de regularización de textura guiada por UV para guiar aún más la finalización de la textura en partes invisibles del cuerpo. Demostramos que ZeroAvatar mejora significativamente la robustez y la consistencia 3D de la generación de avatares 3D basada en optimización a partir de imágenes, superando a los métodos existentes de imagen a 3D en modo zero-shot.
English
Recent advancements in text-to-image generation have enabled significant
progress in zero-shot 3D shape generation. This is achieved by score
distillation, a methodology that uses pre-trained text-to-image diffusion
models to optimize the parameters of a 3D neural presentation, e.g. Neural
Radiance Field (NeRF). While showing promising results, existing methods are
often not able to preserve the geometry of complex shapes, such as human
bodies. To address this challenge, we present ZeroAvatar, a method that
introduces the explicit 3D human body prior to the optimization process.
Specifically, we first estimate and refine the parameters of a parametric human
body from a single image. Then during optimization, we use the posed parametric
body as additional geometry constraint to regularize the diffusion model as
well as the underlying density field. Lastly, we propose a UV-guided texture
regularization term to further guide the completion of texture on invisible
body parts. We show that ZeroAvatar significantly enhances the robustness and
3D consistency of optimization-based image-to-3D avatar generation,
outperforming existing zero-shot image-to-3D methods.