AvatarBooth: Geração de Avatares Humanos 3D de Alta Qualidade e Personalizáveis

Resumo

Apresentamos o AvatarBooth, um método inovador para gerar avatares 3D de alta qualidade utilizando prompts de texto ou imagens específicas. Diferentemente de abordagens anteriores que só conseguiam sintetizar avatares com base em descrições textuais simples, nosso método permite a criação de avatares personalizados a partir de imagens casuais do rosto ou do corpo, ao mesmo tempo em que ainda suporta a geração e edição de modelos baseados em texto. Nossa principal contribuição é o controle preciso da geração de avatares por meio do uso de dois modelos de difusão ajustados separadamente para o rosto e o corpo humano. Isso nos permite capturar detalhes intrincados da aparência facial, roupas e acessórios, resultando em gerações de avatares altamente realistas. Além disso, introduzimos uma restrição de consistência de pose no processo de otimização para melhorar a consistência multi-visual das imagens de cabeça sintetizadas pelo modelo de difusão, eliminando assim interferências de poses humanas não controladas. Adicionalmente, apresentamos uma estratégia de renderização multi-resolução que facilita a supervisão de grosseira a fina na geração de avatares 3D, aprimorando o desempenho do sistema proposto. O modelo de avatar resultante pode ser ainda mais editado usando descrições textuais adicionais e animado por sequências de movimento. Experimentos mostram que o AvatarBooth supera métodos anteriores de texto-para-3D em termos de qualidade de renderização e geometria, seja a partir de prompts de texto ou de imagens específicas. Confira nosso site do projeto em https://zeng-yifei.github.io/avatarbooth_page/.

English

We introduce AvatarBooth, a novel method for generating high-quality 3D avatars using text prompts or specific images. Unlike previous approaches that can only synthesize avatars based on simple text descriptions, our method enables the creation of personalized avatars from casually captured face or body images, while still supporting text-based model generation and editing. Our key contribution is the precise avatar generation control by using dual fine-tuned diffusion models separately for the human face and body. This enables us to capture intricate details of facial appearance, clothing, and accessories, resulting in highly realistic avatar generations. Furthermore, we introduce pose-consistent constraint to the optimization process to enhance the multi-view consistency of synthesized head images from the diffusion model and thus eliminate interference from uncontrolled human poses. In addition, we present a multi-resolution rendering strategy that facilitates coarse-to-fine supervision of 3D avatar generation, thereby enhancing the performance of the proposed system. The resulting avatar model can be further edited using additional text descriptions and driven by motion sequences. Experiments show that AvatarBooth outperforms previous text-to-3D methods in terms of rendering and geometric quality from either text prompts or specific images. Please check our project website at https://zeng-yifei.github.io/avatarbooth_page/.

AvatarBooth: Geração de Avatares Humanos 3D de Alta Qualidade e Personalizáveis

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Resumo

Support