AvatarBooth: Hoogwaardige en aanpasbare 3D-menselijke avatar-generatie

Samenvatting

We introduceren AvatarBooth, een nieuwe methode voor het genereren van hoogwaardige 3D-avatars met behulp van tekstprompts of specifieke afbeeldingen. In tegenstelling tot eerdere benaderingen die alleen avatars kunnen synthetiseren op basis van eenvoudige tekstbeschrijvingen, maakt onze methode het mogelijk om gepersonaliseerde avatars te creëren vanuit casual vastgelegde gezichts- of lichaamsafbeeldingen, terwijl tekstgebaseerde modelgeneratie en -bewerking nog steeds worden ondersteund. Onze belangrijkste bijdrage is de precieze controle over avatar-generatie door het gebruik van duale fine-tuned diffusiemodellen, afzonderlijk voor het menselijk gezicht en lichaam. Hierdoor kunnen we gedetailleerde kenmerken van gezichtsuitdrukkingen, kleding en accessoires vastleggen, wat resulteert in zeer realistische avatar-generaties. Bovendien introduceren we een pose-consistente beperking in het optimalisatieproces om de multi-view consistentie van gesynthetiseerde hoofdafbeeldingen vanuit het diffusiemodel te verbeteren en zo interferentie door ongecontroleerde menselijke poses te elimineren. Daarnaast presenteren we een multi-resolutie renderstrategie die grof-naar-fijn toezicht op 3D-avatar-generatie vergemakkelijkt, waardoor de prestaties van het voorgestelde systeem worden verbeterd. Het resulterende avatar-model kan verder worden bewerkt met aanvullende tekstbeschrijvingen en worden aangestuurd door bewegingsreeksen. Experimenten tonen aan dat AvatarBooth eerdere tekst-naar-3D-methoden overtreft wat betreft render- en geometrische kwaliteit, zowel vanuit tekstprompts als specifieke afbeeldingen. Bezoek onze projectwebsite op https://zeng-yifei.github.io/avatarbooth_page/.

English

We introduce AvatarBooth, a novel method for generating high-quality 3D avatars using text prompts or specific images. Unlike previous approaches that can only synthesize avatars based on simple text descriptions, our method enables the creation of personalized avatars from casually captured face or body images, while still supporting text-based model generation and editing. Our key contribution is the precise avatar generation control by using dual fine-tuned diffusion models separately for the human face and body. This enables us to capture intricate details of facial appearance, clothing, and accessories, resulting in highly realistic avatar generations. Furthermore, we introduce pose-consistent constraint to the optimization process to enhance the multi-view consistency of synthesized head images from the diffusion model and thus eliminate interference from uncontrolled human poses. In addition, we present a multi-resolution rendering strategy that facilitates coarse-to-fine supervision of 3D avatar generation, thereby enhancing the performance of the proposed system. The resulting avatar model can be further edited using additional text descriptions and driven by motion sequences. Experiments show that AvatarBooth outperforms previous text-to-3D methods in terms of rendering and geometric quality from either text prompts or specific images. Please check our project website at https://zeng-yifei.github.io/avatarbooth_page/.

AvatarBooth: Hoogwaardige en aanpasbare 3D-menselijke avatar-generatie

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Samenvatting

Support