FaceStudio: Поместите своё лицо куда угодно за считанные секунды
FaceStudio: Put Your Face Everywhere in Seconds
December 5, 2023
Авторы: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI
Аннотация
Данное исследование посвящено синтезу изображений с сохранением идентичности — увлекательной задаче в области генерации изображений, которая направлена на сохранение личности субъекта при добавлении индивидуального стилистического оттенка. Традиционные методы, такие как Textual Inversion и DreamBooth, достигли значительных успехов в создании персонализированных изображений, однако они имеют существенные недостатки. К ним относятся необходимость значительных ресурсов и времени для тонкой настройки, а также требование наличия множества эталонных изображений. Чтобы преодолеть эти ограничения, наше исследование предлагает новый подход к синтезу с сохранением идентичности, с особым акцентом на изображения людей. Наша модель использует прямой механизм прямого распространения, что позволяет избежать трудоемкой тонкой настройки и обеспечивает быстрое и эффективное создание изображений. Ключевым элементом нашей инновации является гибридная система управления, которая объединяет стилизованные изображения, изображения лиц и текстовые подсказки для управления процессом генерации изображений. Такое уникальное сочетание позволяет нашей модели создавать разнообразные приложения, такие как художественные портреты и изображения с совмещением идентичностей. Результаты экспериментов, включая качественные и количественные оценки, демонстрируют превосходство нашего метода над существующими базовыми моделями и предыдущими работами, особенно в плане впечатляющей эффективности и способности сохранять идентичность субъекта с высокой точностью.
English
This study investigates identity-preserving image synthesis, an intriguing
task in image generation that seeks to maintain a subject's identity while
adding a personalized, stylistic touch. Traditional methods, such as Textual
Inversion and DreamBooth, have made strides in custom image creation, but they
come with significant drawbacks. These include the need for extensive resources
and time for fine-tuning, as well as the requirement for multiple reference
images. To overcome these challenges, our research introduces a novel approach
to identity-preserving synthesis, with a particular focus on human images. Our
model leverages a direct feed-forward mechanism, circumventing the need for
intensive fine-tuning, thereby facilitating quick and efficient image
generation. Central to our innovation is a hybrid guidance framework, which
combines stylized images, facial images, and textual prompts to guide the image
generation process. This unique combination enables our model to produce a
variety of applications, such as artistic portraits and identity-blended
images. Our experimental results, including both qualitative and quantitative
evaluations, demonstrate the superiority of our method over existing baseline
models and previous works, particularly in its remarkable efficiency and
ability to preserve the subject's identity with high fidelity.