ChatPaper.aiChatPaper

FaceStudio: Bringen Sie Ihr Gesicht in Sekundenschnelle überall hin

FaceStudio: Put Your Face Everywhere in Seconds

December 5, 2023
Autoren: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI

Zusammenfassung

Diese Studie untersucht die identitätserhaltende Bildsynthese, eine faszinierende Aufgabe in der Bildgenerierung, die darauf abzielt, die Identität eines Subjekts zu bewahren, während ein persönlicher, stilistischer Touch hinzugefügt wird. Traditionelle Methoden wie Textual Inversion und DreamBooth haben Fortschritte in der Erstellung benutzerdefinierter Bilder gemacht, weisen jedoch erhebliche Nachteile auf. Dazu gehören der Bedarf an umfangreichen Ressourcen und Zeit für das Feinabstimmen sowie die Notwendigkeit mehrerer Referenzbilder. Um diese Herausforderungen zu bewältigen, führt unsere Forschung einen neuartigen Ansatz zur identitätserhaltenden Synthese ein, mit einem besonderen Fokus auf menschliche Bilder. Unser Modell nutzt einen direkten Feed-Forward-Mechanismus, der den Bedarf an intensivem Feinabstimmen umgeht und dadurch eine schnelle und effiziente Bildgenerierung ermöglicht. Kern unserer Innovation ist ein hybrides Leitungsrahmenwerk, das stilisierte Bilder, Gesichtsbilder und textuelle Eingabeaufforderungen kombiniert, um den Bildgenerierungsprozess zu steuern. Diese einzigartige Kombination ermöglicht es unserem Modell, eine Vielzahl von Anwendungen zu erzeugen, wie beispielsweise künstlerische Porträts und identitätsverschmolzene Bilder. Unsere experimentellen Ergebnisse, einschließlich qualitativer und quantitativer Bewertungen, demonstrieren die Überlegenheit unserer Methode gegenüber bestehenden Basismodellen und früheren Arbeiten, insbesondere in Bezug auf ihre bemerkenswerte Effizienz und die Fähigkeit, die Identität des Subjekts mit hoher Treue zu bewahren.
English
This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject's identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject's identity with high fidelity.
PDF331December 15, 2024