ChatPaper.aiChatPaper

FaceStudio : Placez votre visage partout en quelques secondes

FaceStudio: Put Your Face Everywhere in Seconds

December 5, 2023
Auteurs: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI

Résumé

Cette étude explore la synthèse d'images préservant l'identité, une tâche fascinante en génération d'images qui vise à maintenir l'identité d'un sujet tout en y ajoutant une touche stylistique personnalisée. Les méthodes traditionnelles, telles que l'Inversion Textuelle et DreamBooth, ont fait des avancées dans la création d'images personnalisées, mais elles présentent des inconvénients majeurs. Parmi ceux-ci figurent la nécessité de ressources et de temps importants pour le réglage fin, ainsi que l'exigence de multiples images de référence. Pour surmonter ces défis, notre recherche propose une nouvelle approche de synthèse préservant l'identité, en se concentrant particulièrement sur les images humaines. Notre modèle exploite un mécanisme de transmission directe, évitant ainsi le besoin d'un réglage fin intensif, ce qui facilite une génération d'images rapide et efficace. Au cœur de notre innovation se trouve un cadre de guidage hybride, qui combine des images stylisées, des images faciales et des invites textuelles pour orienter le processus de génération d'images. Cette combinaison unique permet à notre modèle de produire une variété d'applications, telles que des portraits artistiques et des images mélangeant les identités. Nos résultats expérimentaux, incluant des évaluations qualitatives et quantitatives, démontrent la supériorité de notre méthode par rapport aux modèles de référence existants et aux travaux précédents, notamment en termes d'efficacité remarquable et de capacité à préserver l'identité du sujet avec une grande fidélité.
English
This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject's identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject's identity with high fidelity.
PDF331December 15, 2024