O Escolhido: Personagens Consistentes em Modelos de Difusão de Texto para Imagem
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models
November 16, 2023
Autores: Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI
Resumo
Os recentes avanços nos modelos de geração de texto para imagem desbloquearam um vasto potencial para a criatividade visual. No entanto, esses modelos enfrentam dificuldades na geração de personagens consistentes, um aspecto crucial para diversas aplicações do mundo real, como visualização de histórias, design de assets para desenvolvimento de jogos, publicidade e mais. Os métodos atuais geralmente dependem de múltiplas imagens pré-existentes do personagem alvo ou envolvem processos manuais intensivos. Neste trabalho, propomos uma solução totalmente automatizada para a geração de personagens consistentes, com o único input sendo um prompt de texto. Introduzimos um procedimento iterativo que, em cada etapa, identifica um conjunto coerente de imagens que compartilham uma identidade semelhante e extrai uma identidade mais consistente desse conjunto. Nossa análise quantitativa demonstra que nosso método alcança um equilíbrio melhor entre o alinhamento ao prompt e a consistência da identidade em comparação com os métodos de base, e esses achados são reforçados por um estudo com usuários. Para concluir, apresentamos várias aplicações práticas da nossa abordagem. A página do projeto está disponível em https://omriavrahami.com/the-chosen-one.
English
Recent advances in text-to-image generation models have unlocked vast
potential for visual creativity. However, these models struggle with generation
of consistent characters, a crucial aspect for numerous real-world applications
such as story visualization, game development asset design, advertising, and
more. Current methods typically rely on multiple pre-existing images of the
target character or involve labor-intensive manual processes. In this work, we
propose a fully automated solution for consistent character generation, with
the sole input being a text prompt. We introduce an iterative procedure that,
at each stage, identifies a coherent set of images sharing a similar identity
and extracts a more consistent identity from this set. Our quantitative
analysis demonstrates that our method strikes a better balance between prompt
alignment and identity consistency compared to the baseline methods, and these
findings are reinforced by a user study. To conclude, we showcase several
practical applications of our approach. Project page is available at
https://omriavrahami.com/the-chosen-one