HeadSculpt: Het maken van 3D-hoofdavatars met tekst

Samenvatting

Onlangs hebben tekstgestuurde 3D-generatieve methoden opmerkelijke vooruitgang geboekt in het produceren van hoogwaardige texturen en geometrie, waarbij ze profiteren van de opkomst van grote visie-taal- en beelddiffusiemodellen. Bestaande methoden hebben echter nog steeds moeite om hoogwaardige 3D-hoofdavatars te creëren op twee vlakken: (1) Ze vertrouwen voornamelijk op een vooraf getraind tekst-naar-beeld diffusiemodel, terwijl ze het nodige 3D-bewustzijn en hoofdprioriteiten missen. Dit maakt ze gevoelig voor inconsistenties en geometrische vervormingen in de gegenereerde avatars. (2) Ze schieten tekort in fijnmazige bewerkingen. Dit komt voornamelijk door de inherente beperkingen van de vooraf getrainde 2D-beelddiffusiemodellen, die nog duidelijker worden bij 3D-hoofdavatars. In dit werk gaan we deze uitdagingen aan door een veelzijdige coarse-to-fine pipeline te introduceren, genaamd HeadSculpt, voor het maken (d.w.z. genereren en bewerken) van 3D-hoofdavatars vanuit tekstuele prompts. Specifiek rusten we eerst het diffusiemodel uit met 3D-bewustzijn door gebruik te maken van op oriëntatiepunten gebaseerde controle en een geleerde tekstuele embedding die het uiterlijk van de achterkant van hoofden vertegenwoordigt, waardoor 3D-consistente hoofdavatar-generaties mogelijk worden. We stellen verder een nieuwe identiteitsbewuste bewerkingsscore-distillatiestrategie voor om een getextureerd mesh te optimaliseren met een hoogwaardige differentieerbare renderingtechniek. Dit maakt identiteitsbehoud mogelijk terwijl de bewerkingsinstructie wordt gevolgd. We tonen de superieure kwaliteit en bewerkingsmogelijkheden van HeadSculpt aan door middel van uitgebreide experimenten en vergelijkingen met bestaande methoden.

English

Recently, text-guided 3D generative methods have made remarkable advancements in producing high-quality textures and geometry, capitalizing on the proliferation of large vision-language and image diffusion models. However, existing methods still struggle to create high-fidelity 3D head avatars in two aspects: (1) They rely mostly on a pre-trained text-to-image diffusion model whilst missing the necessary 3D awareness and head priors. This makes them prone to inconsistency and geometric distortions in the generated avatars. (2) They fall short in fine-grained editing. This is primarily due to the inherited limitations from the pre-trained 2D image diffusion models, which become more pronounced when it comes to 3D head avatars. In this work, we address these challenges by introducing a versatile coarse-to-fine pipeline dubbed HeadSculpt for crafting (i.e., generating and editing) 3D head avatars from textual prompts. Specifically, we first equip the diffusion model with 3D awareness by leveraging landmark-based control and a learned textual embedding representing the back view appearance of heads, enabling 3D-consistent head avatar generations. We further propose a novel identity-aware editing score distillation strategy to optimize a textured mesh with a high-resolution differentiable rendering technique. This enables identity preservation while following the editing instruction. We showcase HeadSculpt's superior fidelity and editing capabilities through comprehensive experiments and comparisons with existing methods.

HeadSculpt: Het maken van 3D-hoofdavatars met tekst

HeadSculpt: Crafting 3D Head Avatars with Text

Samenvatting

Support