AvatarBooth: Generación de Avatares Humanos 3D de Alta Calidad y Personalizables

Resumen

Presentamos AvatarBooth, un método novedoso para generar avatares 3D de alta calidad utilizando indicaciones de texto o imágenes específicas. A diferencia de enfoques anteriores que solo pueden sintetizar avatares basados en descripciones de texto simples, nuestro método permite la creación de avatares personalizados a partir de imágenes de rostros o cuerpos capturadas de manera casual, al mismo tiempo que sigue admitiendo la generación y edición de modelos basados en texto. Nuestra contribución clave es el control preciso en la generación de avatares mediante el uso de dos modelos de difusión ajustados por separado para el rostro y el cuerpo humano. Esto nos permite capturar detalles intrincados de la apariencia facial, la ropa y los accesorios, lo que resulta en generaciones de avatares altamente realistas. Además, introducimos una restricción de consistencia de pose en el proceso de optimización para mejorar la coherencia multi-vista de las imágenes de cabeza sintetizadas por el modelo de difusión y, por lo tanto, eliminar la interferencia de poses humanas no controladas. Adicionalmente, presentamos una estrategia de renderizado multi-resolución que facilita la supervisión de grueso a fino en la generación de avatares 3D, mejorando así el rendimiento del sistema propuesto. El modelo de avatar resultante puede ser editado aún más utilizando descripciones de texto adicionales y animado mediante secuencias de movimiento. Los experimentos muestran que AvatarBooth supera a los métodos anteriores de texto a 3D en términos de calidad de renderizado y geometría, ya sea a partir de indicaciones de texto o imágenes específicas. Por favor, visite nuestro sitio web del proyecto en https://zeng-yifei.github.io/avatarbooth_page/.

English

We introduce AvatarBooth, a novel method for generating high-quality 3D avatars using text prompts or specific images. Unlike previous approaches that can only synthesize avatars based on simple text descriptions, our method enables the creation of personalized avatars from casually captured face or body images, while still supporting text-based model generation and editing. Our key contribution is the precise avatar generation control by using dual fine-tuned diffusion models separately for the human face and body. This enables us to capture intricate details of facial appearance, clothing, and accessories, resulting in highly realistic avatar generations. Furthermore, we introduce pose-consistent constraint to the optimization process to enhance the multi-view consistency of synthesized head images from the diffusion model and thus eliminate interference from uncontrolled human poses. In addition, we present a multi-resolution rendering strategy that facilitates coarse-to-fine supervision of 3D avatar generation, thereby enhancing the performance of the proposed system. The resulting avatar model can be further edited using additional text descriptions and driven by motion sequences. Experiments show that AvatarBooth outperforms previous text-to-3D methods in terms of rendering and geometric quality from either text prompts or specific images. Please check our project website at https://zeng-yifei.github.io/avatarbooth_page/.

AvatarBooth: Generación de Avatares Humanos 3D de Alta Calidad y Personalizables

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Resumen

Support