El Elegido: Personajes Consistentes en Modelos de Difusión de Texto a Imagen

Resumen

Los recientes avances en los modelos de generación de texto a imagen han desbloqueado un gran potencial para la creatividad visual. Sin embargo, estos modelos enfrentan dificultades para generar personajes consistentes, un aspecto crucial para numerosas aplicaciones del mundo real, como la visualización de historias, el diseño de recursos para desarrollo de juegos, publicidad y más. Los métodos actuales suelen depender de múltiples imágenes preexistentes del personaje objetivo o implican procesos manuales intensivos en mano de obra. En este trabajo, proponemos una solución completamente automatizada para la generación de personajes consistentes, donde el único insumo es un texto descriptivo. Introducimos un procedimiento iterativo que, en cada etapa, identifica un conjunto coherente de imágenes que comparten una identidad similar y extrae una identidad más consistente de este conjunto. Nuestro análisis cuantitativo demuestra que nuestro método logra un mejor equilibrio entre la alineación con el texto descriptivo y la consistencia de la identidad en comparación con los métodos de referencia, y estos hallazgos se refuerzan con un estudio de usuarios. Para concluir, presentamos varias aplicaciones prácticas de nuestro enfoque. La página del proyecto está disponible en https://omriavrahami.com/the-chosen-one.

English

Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one

El Elegido: Personajes Consistentes en Modelos de Difusión de Texto a Imagen

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

Resumen

Summary

Support

Support