ZeroAvatar: Geração de Avatares 3D em Zero-shot a partir de uma Única Imagem
ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image
May 25, 2023
Autores: Zhenzhen Weng, Zeyu Wang, Serena Yeung
cs.AI
Resumo
Avanços recentes na geração de texto para imagem permitiram progressos significativos na geração de formas 3D em zero-shot. Isso é alcançado por meio da destilação de pontuação, uma metodologia que utiliza modelos de difusão pré-treinados de texto para imagem para otimizar os parâmetros de uma representação neural 3D, como o Neural Radiance Field (NeRF). Embora mostrem resultados promissores, os métodos existentes frequentemente não conseguem preservar a geometria de formas complexas, como corpos humanos. Para enfrentar esse desafio, apresentamos o ZeroAvatar, um método que introduz o conhecimento prévio explícito do corpo humano 3D no processo de otimização. Especificamente, primeiro estimamos e refinamos os parâmetros de um corpo humano paramétrico a partir de uma única imagem. Em seguida, durante a otimização, usamos o corpo paramétrico posicionado como uma restrição geométrica adicional para regularizar o modelo de difusão, bem como o campo de densidade subjacente. Por fim, propomos um termo de regularização de textura guiada por UV para orientar ainda mais a conclusão da textura em partes invisíveis do corpo. Demonstramos que o ZeroAvatar melhora significativamente a robustez e a consistência 3D da geração de avatares 3D baseada em otimização de imagem, superando os métodos existentes de imagem para 3D em zero-shot.
English
Recent advancements in text-to-image generation have enabled significant
progress in zero-shot 3D shape generation. This is achieved by score
distillation, a methodology that uses pre-trained text-to-image diffusion
models to optimize the parameters of a 3D neural presentation, e.g. Neural
Radiance Field (NeRF). While showing promising results, existing methods are
often not able to preserve the geometry of complex shapes, such as human
bodies. To address this challenge, we present ZeroAvatar, a method that
introduces the explicit 3D human body prior to the optimization process.
Specifically, we first estimate and refine the parameters of a parametric human
body from a single image. Then during optimization, we use the posed parametric
body as additional geometry constraint to regularize the diffusion model as
well as the underlying density field. Lastly, we propose a UV-guided texture
regularization term to further guide the completion of texture on invisible
body parts. We show that ZeroAvatar significantly enhances the robustness and
3D consistency of optimization-based image-to-3D avatar generation,
outperforming existing zero-shot image-to-3D methods.