Избранный: Согласованные персонажи в диффузионных моделях для генерации изображений из текста
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models
November 16, 2023
Авторы: Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI
Аннотация
Последние достижения в моделях генерации изображений по тексту открыли огромный потенциал для визуального творчества. Однако эти модели испытывают трудности с созданием согласованных персонажей, что является критически важным аспектом для множества практических применений, таких как визуализация историй, разработка игровых ассетов, реклама и многое другое. Современные методы обычно полагаются на несколько заранее существующих изображений целевого персонажа или включают трудоемкие ручные процессы. В данной работе мы предлагаем полностью автоматизированное решение для генерации согласованных персонажей, где единственным входным данным является текстовый запрос. Мы представляем итеративную процедуру, которая на каждом этапе идентифицирует согласованный набор изображений, разделяющих схожую идентичность, и извлекает более согласованную идентичность из этого набора. Наш количественный анализ показывает, что наш метод достигает лучшего баланса между соответствием запросу и согласованностью идентичности по сравнению с базовыми методами, и эти результаты подтверждаются пользовательским исследованием. В заключение мы демонстрируем несколько практических применений нашего подхода. Страница проекта доступна по адресу https://omriavrahami.com/the-chosen-one.
English
Recent advances in text-to-image generation models have unlocked vast
potential for visual creativity. However, these models struggle with generation
of consistent characters, a crucial aspect for numerous real-world applications
such as story visualization, game development asset design, advertising, and
more. Current methods typically rely on multiple pre-existing images of the
target character or involve labor-intensive manual processes. In this work, we
propose a fully automated solution for consistent character generation, with
the sole input being a text prompt. We introduce an iterative procedure that,
at each stage, identifies a coherent set of images sharing a similar identity
and extracts a more consistent identity from this set. Our quantitative
analysis demonstrates that our method strikes a better balance between prompt
alignment and identity consistency compared to the baseline methods, and these
findings are reinforced by a user study. To conclude, we showcase several
practical applications of our approach. Project page is available at
https://omriavrahami.com/the-chosen-oneSummary
AI-Generated Summary