Un-Prompt-Un-Histoire : Génération de Texte en Image Cohérente avec Déjeuner Gratuit en Utilisant un Seul Indicateur
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt
January 23, 2025
Auteurs: Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng
cs.AI
Résumé
Les modèles de génération texte-image peuvent créer des images de haute qualité à partir de descriptions d'entrée. Cependant, ils rencontrent des difficultés pour assurer la génération cohérente des exigences de préservation de l'identité pour la narration. Les approches existantes à ce problème nécessitent généralement un entraînement intensif sur de grands ensembles de données ou des modifications supplémentaires des architectures de modèles originales. Cela limite leur applicabilité à travers différents domaines et diverses configurations de modèles de diffusion. Dans cet article, nous observons d'abord la capacité inhérente des modèles de langage, appelée cohérence contextuelle, à comprendre l'identité à travers le contexte avec une seule description. En nous inspirant de cette cohérence contextuelle inhérente, nous proposons une nouvelle méthode de génération texte-image (T2I) cohérente sans entraînement, appelée "One-Prompt-One-Story" (1Prompt1Story). Notre approche 1Prompt1Story concatène toutes les descriptions en une seule entrée pour les modèles de diffusion T2I, préservant initialement les identités des personnages. Nous affinons ensuite le processus de génération en utilisant deux nouvelles techniques : Rééquilibrage des valeurs singulières et Attention croisée préservant l'identité, garantissant un meilleur alignement avec la description d'entrée pour chaque image. Dans nos expériences, nous comparons notre méthode à diverses approches existantes de génération T2I cohérente pour démontrer son efficacité à travers des mesures quantitatives et des évaluations qualitatives. Le code est disponible sur https://github.com/byliutao/1Prompt1Story.
English
Text-to-image generation models can create high-quality images from input
prompts. However, they struggle to support the consistent generation of
identity-preserving requirements for storytelling. Existing approaches to this
problem typically require extensive training in large datasets or additional
modifications to the original model architectures. This limits their
applicability across different domains and diverse diffusion model
configurations. In this paper, we first observe the inherent capability of
language models, coined context consistency, to comprehend identity through
context with a single prompt. Drawing inspiration from the inherent context
consistency, we propose a novel training-free method for consistent
text-to-image (T2I) generation, termed "One-Prompt-One-Story" (1Prompt1Story).
Our approach 1Prompt1Story concatenates all prompts into a single input for T2I
diffusion models, initially preserving character identities. We then refine the
generation process using two novel techniques: Singular-Value Reweighting and
Identity-Preserving Cross-Attention, ensuring better alignment with the input
description for each frame. In our experiments, we compare our method against
various existing consistent T2I generation approaches to demonstrate its
effectiveness through quantitative metrics and qualitative assessments. Code is
available at https://github.com/byliutao/1Prompt1Story.Summary
AI-Generated Summary