SEEAvatar: Fotorealistische tekst-naar-3D-avatar-generatie met beperkte geometrie en uiterlijk
SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance
December 13, 2023
Auteurs: Yuanyou Xu, Zongxin Yang, Yi Yang
cs.AI
Samenvatting
Aangedreven door grootschalige tekst-naar-beeldgeneratiemodellen heeft tekst-naar-3D-avatargeneratie veelbelovende vooruitgang geboekt. De meeste methoden slagen er echter niet in fotorealistische resultaten te produceren, beperkt door onnauwkeurige geometrie en kwalitatief onvoldoende uiterlijk. Voor een praktischere avatargeneratie presenteren wij SEEAvatar, een methode voor het genereren van fotorealistische 3D-avatars uit tekst met SElf-Evolving-beperkingen voor ontkoppelde geometrie en uiterlijk. Voor de geometrie stellen wij voor om de geoptimaliseerde avatar te beperken tot een degelijke globale vorm met behulp van een sjabloonavatar. De sjabloonavatar wordt geïnitialiseerd met menselijke voorkennis en kan periodiek worden bijgewerkt door de geoptimaliseerde avatar als een evoluerend sjabloon, wat een flexibelere vormgeneratie mogelijk maakt. Daarnaast wordt de geometrie ook beperkt door de statische menselijke voorkennis in lokale delen zoals het gezicht en de handen om de delicate structuren te behouden. Voor het genereren van het uiterlijk gebruiken wij een diffusiemodel versterkt door prompt engineering om een fysiek gebaseerd renderpipeline te begeleiden bij het genereren van realistische texturen. De lichtheidsbeperking wordt toegepast op de albedotekstuur om incorrecte lichteffecten te onderdrukken. Experimenten tonen aan dat onze methode eerdere methoden overtreft op het gebied van zowel globale als lokale geometrie en uiterlijkkwaliteit met een grote marge. Omdat onze methode hoogwaardige meshes en texturen kan produceren, kunnen dergelijke assets direct worden toegepast in de klassieke graphicspipeline voor realistische rendering onder elke lichtconditie. Projectpagina: https://seeavatar3d.github.io.
English
Powered by large-scale text-to-image generation models, text-to-3D avatar
generation has made promising progress. However, most methods fail to produce
photorealistic results, limited by imprecise geometry and low-quality
appearance. Towards more practical avatar generation, we present SEEAvatar, a
method for generating photorealistic 3D avatars from text with SElf-Evolving
constraints for decoupled geometry and appearance. For geometry, we propose to
constrain the optimized avatar in a decent global shape with a template avatar.
The template avatar is initialized with human prior and can be updated by the
optimized avatar periodically as an evolving template, which enables more
flexible shape generation. Besides, the geometry is also constrained by the
static human prior in local parts like face and hands to maintain the delicate
structures. For appearance generation, we use diffusion model enhanced by
prompt engineering to guide a physically based rendering pipeline to generate
realistic textures. The lightness constraint is applied on the albedo texture
to suppress incorrect lighting effect. Experiments show that our method
outperforms previous methods on both global and local geometry and appearance
quality by a large margin. Since our method can produce high-quality meshes and
textures, such assets can be directly applied in classic graphics pipeline for
realistic rendering under any lighting condition. Project page at:
https://seeavatar3d.github.io.