AvatarBooth: Generazione di Avatar Umani 3D di Alta Qualità e Personalizzabili

Abstract

Presentiamo AvatarBooth, un metodo innovativo per generare avatar 3D di alta qualità utilizzando prompt testuali o immagini specifiche. A differenza degli approcci precedenti che possono sintetizzare avatar solo basandosi su semplici descrizioni testuali, il nostro metodo consente la creazione di avatar personalizzati a partire da immagini casuali del viso o del corpo, pur supportando la generazione e la modifica del modello basata su testo. Il nostro contributo principale è il controllo preciso della generazione degli avatar attraverso l'uso di modelli di diffusione ottimizzati separatamente per il viso e il corpo umano. Ciò ci permette di catturare dettagli intricati dell'aspetto facciale, dell'abbigliamento e degli accessori, ottenendo generazioni di avatar altamente realistiche. Inoltre, introduciamo un vincolo di coerenza della posa nel processo di ottimizzazione per migliorare la coerenza multi-vista delle immagini della testa sintetizzate dal modello di diffusione, eliminando così l'interferenza dovuta a pose umane non controllate. In aggiunta, presentiamo una strategia di rendering multi-risoluzione che facilita la supervisione da grossolana a fine della generazione di avatar 3D, migliorando così le prestazioni del sistema proposto. Il modello di avatar risultante può essere ulteriormente modificato utilizzando descrizioni testuali aggiuntive e guidato da sequenze di movimento. Gli esperimenti dimostrano che AvatarBooth supera i precedenti metodi testo-a-3D in termini di qualità di rendering e geometrica, sia con prompt testuali che con immagini specifiche. Si prega di visitare il nostro sito web del progetto all'indirizzo https://zeng-yifei.github.io/avatarbooth_page/.

English

We introduce AvatarBooth, a novel method for generating high-quality 3D avatars using text prompts or specific images. Unlike previous approaches that can only synthesize avatars based on simple text descriptions, our method enables the creation of personalized avatars from casually captured face or body images, while still supporting text-based model generation and editing. Our key contribution is the precise avatar generation control by using dual fine-tuned diffusion models separately for the human face and body. This enables us to capture intricate details of facial appearance, clothing, and accessories, resulting in highly realistic avatar generations. Furthermore, we introduce pose-consistent constraint to the optimization process to enhance the multi-view consistency of synthesized head images from the diffusion model and thus eliminate interference from uncontrolled human poses. In addition, we present a multi-resolution rendering strategy that facilitates coarse-to-fine supervision of 3D avatar generation, thereby enhancing the performance of the proposed system. The resulting avatar model can be further edited using additional text descriptions and driven by motion sequences. Experiments show that AvatarBooth outperforms previous text-to-3D methods in terms of rendering and geometric quality from either text prompts or specific images. Please check our project website at https://zeng-yifei.github.io/avatarbooth_page/.

AvatarBooth: Generazione di Avatar Umani 3D di Alta Qualità e Personalizzabili

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Abstract

Support