ChatPaper.aiChatPaper

ZeroAvatar: Null-Shot-Generierung von 3D-Avataren aus einem einzelnen Bild

ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image

May 25, 2023
Autoren: Zhenzhen Weng, Zeyu Wang, Serena Yeung
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Text-zu-Bild-Generierung haben bedeutende Fortschritte in der Null-Shot-3D-Formgenerierung ermöglicht. Dies wird durch Score-Distillation erreicht, eine Methodik, die vortrainierte Text-zu-Bild-Diffusionsmodelle verwendet, um die Parameter einer 3D-Neuronalen Repräsentation, z.B. eines Neural Radiance Field (NeRF), zu optimieren. Obwohl vielversprechende Ergebnisse gezeigt werden, sind bestehende Methoden oft nicht in der Lage, die Geometrie komplexer Formen wie menschlicher Körper zu bewahren. Um diese Herausforderung zu bewältigen, stellen wir ZeroAvatar vor, eine Methode, die das explizite 3D-Menschkörper-Prior in den Optimierungsprozess einführt. Konkret schätzen und verfeinern wir zunächst die Parameter eines parametrischen Menschkörpers aus einem einzelnen Bild. Während der Optimierung verwenden wir den posierten parametrischen Körper als zusätzliche geometrische Beschränkung, um sowohl das Diffusionsmodell als auch das zugrunde liegende Dichtefeld zu regularisieren. Schließlich schlagen wir einen UV-geführten Textur-Regularisierungsterm vor, um die Vervollständigung der Textur auf unsichtbaren Körperteilen weiter zu leiten. Wir zeigen, dass ZeroAvatar die Robustheit und 3D-Konsistenz der optimierungsbasierten Bild-zu-3D-Avatar-Generierung signifikant verbessert und bestehende Null-Shot-Bild-zu-3D-Methoden übertrifft.
English
Recent advancements in text-to-image generation have enabled significant progress in zero-shot 3D shape generation. This is achieved by score distillation, a methodology that uses pre-trained text-to-image diffusion models to optimize the parameters of a 3D neural presentation, e.g. Neural Radiance Field (NeRF). While showing promising results, existing methods are often not able to preserve the geometry of complex shapes, such as human bodies. To address this challenge, we present ZeroAvatar, a method that introduces the explicit 3D human body prior to the optimization process. Specifically, we first estimate and refine the parameters of a parametric human body from a single image. Then during optimization, we use the posed parametric body as additional geometry constraint to regularize the diffusion model as well as the underlying density field. Lastly, we propose a UV-guided texture regularization term to further guide the completion of texture on invisible body parts. We show that ZeroAvatar significantly enhances the robustness and 3D consistency of optimization-based image-to-3D avatar generation, outperforming existing zero-shot image-to-3D methods.
PDF10December 15, 2024