ZeroAvatar: Generatie van 3D-avatars zonder voorafgaande training vanuit een enkele afbeelding

Samenvatting

Recente vooruitgang in tekst-naar-beeldgeneratie heeft aanzienlijke vooruitgang mogelijk gemaakt in zero-shot 3D-vormgeneratie. Dit wordt bereikt door score-distillatie, een methodologie die vooraf getrainde tekst-naar-beeld diffusiemodellen gebruikt om de parameters van een 3D-neurale representatie te optimaliseren, bijvoorbeeld een Neural Radiance Field (NeRF). Hoewel veelbelovende resultaten worden getoond, zijn bestaande methoden vaak niet in staat om de geometrie van complexe vormen, zoals menselijke lichamen, te behouden. Om deze uitdaging aan te pakken, presenteren we ZeroAvatar, een methode die het expliciete 3D-menselijk lichaamsprior introduceert in het optimalisatieproces. Specifiek schatten en verfijnen we eerst de parameters van een parametrisch menselijk lichaam vanuit een enkele afbeelding. Vervolgens gebruiken we tijdens de optimalisatie het geparametriseerde lichaam als aanvullende geometrische beperking om zowel het diffusiemodel als het onderliggende dichtheidsveld te regulariseren. Ten slotte stellen we een UV-geleide textuurregularisatieterm voor om de voltooiing van textuur op onzichtbare lichaamsdelen verder te begeleiden. We tonen aan dat ZeroAvatar de robuustheid en 3D-consistentie van optimalisatiegebaseerde beeld-naar-3D-avatargeneratie aanzienlijk verbetert, en daarbij bestaande zero-shot beeld-naar-3D-methoden overtreft.

English

Recent advancements in text-to-image generation have enabled significant progress in zero-shot 3D shape generation. This is achieved by score distillation, a methodology that uses pre-trained text-to-image diffusion models to optimize the parameters of a 3D neural presentation, e.g. Neural Radiance Field (NeRF). While showing promising results, existing methods are often not able to preserve the geometry of complex shapes, such as human bodies. To address this challenge, we present ZeroAvatar, a method that introduces the explicit 3D human body prior to the optimization process. Specifically, we first estimate and refine the parameters of a parametric human body from a single image. Then during optimization, we use the posed parametric body as additional geometry constraint to regularize the diffusion model as well as the underlying density field. Lastly, we propose a UV-guided texture regularization term to further guide the completion of texture on invisible body parts. We show that ZeroAvatar significantly enhances the robustness and 3D consistency of optimization-based image-to-3D avatar generation, outperforming existing zero-shot image-to-3D methods.

ZeroAvatar: Generatie van 3D-avatars zonder voorafgaande training vanuit een enkele afbeelding

ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image

Samenvatting

Support