El Elegido: Personajes Consistentes en Modelos de Difusión de Texto a Imagen
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models
November 16, 2023
Autores: Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI
Resumen
Los recientes avances en los modelos de generación de texto a imagen han desbloqueado un gran potencial para la creatividad visual. Sin embargo, estos modelos enfrentan dificultades para generar personajes consistentes, un aspecto crucial para numerosas aplicaciones del mundo real, como la visualización de historias, el diseño de recursos para desarrollo de juegos, publicidad y más. Los métodos actuales suelen depender de múltiples imágenes preexistentes del personaje objetivo o implican procesos manuales intensivos en mano de obra. En este trabajo, proponemos una solución completamente automatizada para la generación de personajes consistentes, donde el único insumo es un texto descriptivo. Introducimos un procedimiento iterativo que, en cada etapa, identifica un conjunto coherente de imágenes que comparten una identidad similar y extrae una identidad más consistente de este conjunto. Nuestro análisis cuantitativo demuestra que nuestro método logra un mejor equilibrio entre la alineación con el texto descriptivo y la consistencia de la identidad en comparación con los métodos de referencia, y estos hallazgos se refuerzan con un estudio de usuarios. Para concluir, presentamos varias aplicaciones prácticas de nuestro enfoque. La página del proyecto está disponible en https://omriavrahami.com/the-chosen-one.
English
Recent advances in text-to-image generation models have unlocked vast
potential for visual creativity. However, these models struggle with generation
of consistent characters, a crucial aspect for numerous real-world applications
such as story visualization, game development asset design, advertising, and
more. Current methods typically rely on multiple pre-existing images of the
target character or involve labor-intensive manual processes. In this work, we
propose a fully automated solution for consistent character generation, with
the sole input being a text prompt. We introduce an iterative procedure that,
at each stage, identifies a coherent set of images sharing a similar identity
and extracts a more consistent identity from this set. Our quantitative
analysis demonstrates that our method strikes a better balance between prompt
alignment and identity consistency compared to the baseline methods, and these
findings are reinforced by a user study. To conclude, we showcase several
practical applications of our approach. Project page is available at
https://omriavrahami.com/the-chosen-oneSummary
AI-Generated Summary