HeadSculpt: Het maken van 3D-hoofdavatars met tekst
HeadSculpt: Crafting 3D Head Avatars with Text
June 5, 2023
Auteurs: Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong
cs.AI
Samenvatting
Onlangs hebben tekstgestuurde 3D-generatieve methoden opmerkelijke vooruitgang geboekt in het produceren van hoogwaardige texturen en geometrie, waarbij ze profiteren van de opkomst van grote visie-taal- en beelddiffusiemodellen. Bestaande methoden hebben echter nog steeds moeite om hoogwaardige 3D-hoofdavatars te creëren op twee vlakken: (1) Ze vertrouwen voornamelijk op een vooraf getraind tekst-naar-beeld diffusiemodel, terwijl ze het nodige 3D-bewustzijn en hoofdprioriteiten missen. Dit maakt ze gevoelig voor inconsistenties en geometrische vervormingen in de gegenereerde avatars. (2) Ze schieten tekort in fijnmazige bewerkingen. Dit komt voornamelijk door de inherente beperkingen van de vooraf getrainde 2D-beelddiffusiemodellen, die nog duidelijker worden bij 3D-hoofdavatars. In dit werk gaan we deze uitdagingen aan door een veelzijdige coarse-to-fine pipeline te introduceren, genaamd HeadSculpt, voor het maken (d.w.z. genereren en bewerken) van 3D-hoofdavatars vanuit tekstuele prompts. Specifiek rusten we eerst het diffusiemodel uit met 3D-bewustzijn door gebruik te maken van op oriëntatiepunten gebaseerde controle en een geleerde tekstuele embedding die het uiterlijk van de achterkant van hoofden vertegenwoordigt, waardoor 3D-consistente hoofdavatar-generaties mogelijk worden. We stellen verder een nieuwe identiteitsbewuste bewerkingsscore-distillatiestrategie voor om een getextureerd mesh te optimaliseren met een hoogwaardige differentieerbare renderingtechniek. Dit maakt identiteitsbehoud mogelijk terwijl de bewerkingsinstructie wordt gevolgd. We tonen de superieure kwaliteit en bewerkingsmogelijkheden van HeadSculpt aan door middel van uitgebreide experimenten en vergelijkingen met bestaande methoden.
English
Recently, text-guided 3D generative methods have made remarkable advancements
in producing high-quality textures and geometry, capitalizing on the
proliferation of large vision-language and image diffusion models. However,
existing methods still struggle to create high-fidelity 3D head avatars in two
aspects: (1) They rely mostly on a pre-trained text-to-image diffusion model
whilst missing the necessary 3D awareness and head priors. This makes them
prone to inconsistency and geometric distortions in the generated avatars. (2)
They fall short in fine-grained editing. This is primarily due to the inherited
limitations from the pre-trained 2D image diffusion models, which become more
pronounced when it comes to 3D head avatars. In this work, we address these
challenges by introducing a versatile coarse-to-fine pipeline dubbed HeadSculpt
for crafting (i.e., generating and editing) 3D head avatars from textual
prompts. Specifically, we first equip the diffusion model with 3D awareness by
leveraging landmark-based control and a learned textual embedding representing
the back view appearance of heads, enabling 3D-consistent head avatar
generations. We further propose a novel identity-aware editing score
distillation strategy to optimize a textured mesh with a high-resolution
differentiable rendering technique. This enables identity preservation while
following the editing instruction. We showcase HeadSculpt's superior fidelity
and editing capabilities through comprehensive experiments and comparisons with
existing methods.