PhotoVerse: Настройка изображений без обучения с использованием диффузионных моделей для генерации изображений из текста
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models
September 11, 2023
Авторы: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI
Аннотация
Персонализированная генерация изображений на основе текста стала мощным и востребованным инструментом, позволяющим пользователям создавать кастомизированные изображения в соответствии с их конкретными концепциями и запросами. Однако существующие подходы к персонализации сталкиваются с рядом проблем, включая длительное время настройки, большие требования к хранению данных, необходимость использования нескольких входных изображений для одного идентификатора, а также ограничения в сохранении идентичности и редактируемости. Для решения этих задач мы представляем PhotoVerse — инновационную методику, которая включает в себя механизм двойного ветвления в текстовой и визуальной областях, обеспечивая эффективный контроль над процессом генерации изображений. Кроме того, мы вводим новый компонент — потерю идентичности лица, чтобы улучшить сохранение идентичности в процессе обучения. Примечательно, что наш подход PhotoVerse устраняет необходимость настройки во время тестирования и требует всего одного фотографического изображения целевого идентификатора, что значительно снижает затраты ресурсов на генерацию изображений. После однократной фазы обучения наш метод позволяет создавать высококачественные изображения всего за несколько секунд. Более того, наш подход способен генерировать разнообразные изображения, охватывающие различные сцены и стили. Обширная оценка демонстрирует превосходную производительность нашего метода, который достигает двойных целей: сохранения идентичности и обеспечения редактируемости. Страница проекта: https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and
sought-after tool, empowering users to create customized images based on their
specific concepts and prompts. However, existing approaches to personalization
encounter multiple challenges, including long tuning times, large storage
requirements, the necessity for multiple input images per identity, and
limitations in preserving identity and editability. To address these obstacles,
we present PhotoVerse, an innovative methodology that incorporates a
dual-branch conditioning mechanism in both text and image domains, providing
effective control over the image generation process. Furthermore, we introduce
facial identity loss as a novel component to enhance the preservation of
identity during training. Remarkably, our proposed PhotoVerse eliminates the
need for test time tuning and relies solely on a single facial photo of the
target identity, significantly reducing the resource cost associated with image
generation. After a single training phase, our approach enables generating
high-quality images within only a few seconds. Moreover, our method can produce
diverse images that encompass various scenes and styles. The extensive
evaluation demonstrates the superior performance of our approach, which
achieves the dual objectives of preserving identity and facilitating
editability. Project page: https://photoverse2d.github.io/