L'Élu : Des personnages cohérents dans les modèles de diffusion texte-image
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models
November 16, 2023
Auteurs: Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI
Résumé
Les récents progrès dans les modèles de génération texte-image ont débloqué un vaste potentiel pour la créativité visuelle. Cependant, ces modèles peinent à générer des personnages cohérents, un aspect crucial pour de nombreuses applications pratiques telles que la visualisation d'histoires, la conception d'assets pour le développement de jeux, la publicité, et plus encore. Les méthodes actuelles reposent généralement sur plusieurs images préexistantes du personnage cible ou impliquent des processus manuels laborieux. Dans ce travail, nous proposons une solution entièrement automatisée pour la génération de personnages cohérents, avec comme seule entrée une invite textuelle. Nous introduisons une procédure itérative qui, à chaque étape, identifie un ensemble cohérent d'images partageant une identité similaire et en extrait une identité plus cohérente. Notre analyse quantitative démontre que notre méthode atteint un meilleur équilibre entre l'alignement sur l'invite et la cohérence d'identité par rapport aux méthodes de référence, et ces résultats sont renforcés par une étude utilisateur. Pour conclure, nous présentons plusieurs applications pratiques de notre approche. La page du projet est disponible à l'adresse suivante : https://omriavrahami.com/the-chosen-one
English
Recent advances in text-to-image generation models have unlocked vast
potential for visual creativity. However, these models struggle with generation
of consistent characters, a crucial aspect for numerous real-world applications
such as story visualization, game development asset design, advertising, and
more. Current methods typically rely on multiple pre-existing images of the
target character or involve labor-intensive manual processes. In this work, we
propose a fully automated solution for consistent character generation, with
the sole input being a text prompt. We introduce an iterative procedure that,
at each stage, identifies a coherent set of images sharing a similar identity
and extracts a more consistent identity from this set. Our quantitative
analysis demonstrates that our method strikes a better balance between prompt
alignment and identity consistency compared to the baseline methods, and these
findings are reinforced by a user study. To conclude, we showcase several
practical applications of our approach. Project page is available at
https://omriavrahami.com/the-chosen-oneSummary
AI-Generated Summary