AvatarBooth: Hochwertige und anpassbare 3D-Mensch-Avatargenerierung

Zusammenfassung

Wir stellen AvatarBooth vor, eine neuartige Methode zur Erzeugung hochwertiger 3D-Avatare mithilfe von Textbeschreibungen oder spezifischen Bildern. Im Gegensatz zu früheren Ansätzen, die nur Avatare basierend auf einfachen Textbeschreibungen synthetisieren können, ermöglicht unsere Methode die Erstellung personalisierter Avatare aus beiläufig aufgenommenen Gesichts- oder Körperbildern, während sie gleichzeitig die textbasierte Modellgenerierung und -bearbeitung unterstützt. Unser wesentlicher Beitrag ist die präzise Steuerung der Avatar-Generierung durch die Verwendung von zwei separat feinabgestimmten Diffusionsmodellen für das menschliche Gesicht und den Körper. Dies ermöglicht es uns, feine Details des Gesichtsaussehens, der Kleidung und der Accessoires zu erfassen, was zu hochrealistischen Avatar-Generierungen führt. Darüber hinaus führen wir eine pose-konsistente Beschränkung in den Optimierungsprozess ein, um die Multi-View-Konsistenz der synthetisierten Kopfbilder aus dem Diffusionsmodell zu verbessern und somit Störungen durch unkontrollierte menschliche Posen zu eliminieren. Zusätzlich präsentieren wir eine Multi-Resolution-Rendering-Strategie, die eine grob- bis feinabgestufte Überwachung der 3D-Avatar-Generierung ermöglicht und dadurch die Leistung des vorgeschlagenen Systems verbessert. Das resultierende Avatar-Modell kann weiterhin mit zusätzlichen Textbeschreibungen bearbeitet und durch Bewegungssequenzen gesteuert werden. Experimente zeigen, dass AvatarBooth frühere Text-zu-3D-Methoden in Bezug auf Rendering- und geometrische Qualität sowohl bei Textbeschreibungen als auch bei spezifischen Bildern übertrifft. Bitte besuchen Sie unsere Projektwebsite unter https://zeng-yifei.github.io/avatarbooth_page/.

English

We introduce AvatarBooth, a novel method for generating high-quality 3D avatars using text prompts or specific images. Unlike previous approaches that can only synthesize avatars based on simple text descriptions, our method enables the creation of personalized avatars from casually captured face or body images, while still supporting text-based model generation and editing. Our key contribution is the precise avatar generation control by using dual fine-tuned diffusion models separately for the human face and body. This enables us to capture intricate details of facial appearance, clothing, and accessories, resulting in highly realistic avatar generations. Furthermore, we introduce pose-consistent constraint to the optimization process to enhance the multi-view consistency of synthesized head images from the diffusion model and thus eliminate interference from uncontrolled human poses. In addition, we present a multi-resolution rendering strategy that facilitates coarse-to-fine supervision of 3D avatar generation, thereby enhancing the performance of the proposed system. The resulting avatar model can be further edited using additional text descriptions and driven by motion sequences. Experiments show that AvatarBooth outperforms previous text-to-3D methods in terms of rendering and geometric quality from either text prompts or specific images. Please check our project website at https://zeng-yifei.github.io/avatarbooth_page/.

AvatarBooth: Hochwertige und anpassbare 3D-Mensch-Avatargenerierung

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Zusammenfassung

Support