ChatPaper.aiChatPaper

FaceStudio: Metti il tuo volto ovunque in pochi secondi

FaceStudio: Put Your Face Everywhere in Seconds

December 5, 2023
Autori: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI

Abstract

Questo studio indaga la sintesi di immagini che preservano l'identità, un compito affascinante nella generazione di immagini che mira a mantenere l'identità di un soggetto mentre aggiunge un tocco stilistico personalizzato. Metodi tradizionali, come Textual Inversion e DreamBooth, hanno fatto progressi nella creazione di immagini personalizzate, ma presentano significativi inconvenienti. Questi includono la necessità di risorse e tempo estesi per il fine-tuning, nonché il requisito di più immagini di riferimento. Per superare queste sfide, la nostra ricerca introduce un nuovo approccio alla sintesi che preserva l'identità, con un particolare focus sulle immagini umane. Il nostro modello sfrutta un meccanismo di feed-forward diretto, evitando la necessità di un fine-tuning intensivo, facilitando così una generazione di immagini rapida ed efficiente. Al centro della nostra innovazione c'è un framework di guida ibrido, che combina immagini stilizzate, immagini facciali e prompt testuali per guidare il processo di generazione delle immagini. Questa combinazione unica consente al nostro modello di produrre una varietà di applicazioni, come ritratti artistici e immagini con identità miscelate. I nostri risultati sperimentali, inclusi sia valutazioni qualitative che quantitative, dimostrano la superiorità del nostro metodo rispetto ai modelli di base esistenti e ai lavori precedenti, in particolare per la sua notevole efficienza e capacità di preservare l'identità del soggetto con alta fedeltà.
English
This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject's identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject's identity with high fidelity.
PDF331December 15, 2024