FaceStudio: Plaats je gezicht overal in seconden
FaceStudio: Put Your Face Everywhere in Seconds
December 5, 2023
Auteurs: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI
Samenvatting
Dit onderzoek richt zich op identiteit-behoudende beeld synthese, een intrigerende taak binnen beeldgeneratie die streeft naar het behouden van de identiteit van een onderwerp terwijl er een gepersonaliseerde, stijlvolle toets wordt toegevoegd. Traditionele methoden, zoals Textual Inversion en DreamBooth, hebben vooruitgang geboekt in het maken van aangepaste beelden, maar ze hebben aanzienlijke nadelen. Deze omvatten de behoefte aan uitgebreide middelen en tijd voor fine-tuning, evenals de vereiste van meerdere referentiebeelden. Om deze uitdagingen te overwinnen, introduceert ons onderzoek een nieuwe aanpak voor identiteit-behoudende synthese, met een specifieke focus op menselijke beelden. Ons model maakt gebruik van een direct feed-forward mechanisme, waardoor de noodzaak voor intensieve fine-tuning wordt omzeild, wat snelle en efficiënte beeldgeneratie mogelijk maakt. Centraal in onze innovatie staat een hybride begeleidingsraamwerk, dat gestileerde beelden, gezichtsbeelden en tekstuele prompts combineert om het beeldgeneratieproces te sturen. Deze unieke combinatie stelt ons model in staat om een verscheidenheid aan toepassingen te produceren, zoals artistieke portretten en identiteit-gemengde beelden. Onze experimentele resultaten, inclusief zowel kwalitatieve als kwantitatieve evaluaties, tonen de superioriteit van onze methode aan ten opzichte van bestaande basislijnmodellen en eerdere werken, met name in zijn opmerkelijke efficiëntie en het vermogen om de identiteit van het onderwerp met hoge trouw te behouden.
English
This study investigates identity-preserving image synthesis, an intriguing
task in image generation that seeks to maintain a subject's identity while
adding a personalized, stylistic touch. Traditional methods, such as Textual
Inversion and DreamBooth, have made strides in custom image creation, but they
come with significant drawbacks. These include the need for extensive resources
and time for fine-tuning, as well as the requirement for multiple reference
images. To overcome these challenges, our research introduces a novel approach
to identity-preserving synthesis, with a particular focus on human images. Our
model leverages a direct feed-forward mechanism, circumventing the need for
intensive fine-tuning, thereby facilitating quick and efficient image
generation. Central to our innovation is a hybrid guidance framework, which
combines stylized images, facial images, and textual prompts to guide the image
generation process. This unique combination enables our model to produce a
variety of applications, such as artistic portraits and identity-blended
images. Our experimental results, including both qualitative and quantitative
evaluations, demonstrate the superiority of our method over existing baseline
models and previous works, particularly in its remarkable efficiency and
ability to preserve the subject's identity with high fidelity.