ChatPaper.aiChatPaper

Un-Prompt-Un-Histoire : Génération de Texte en Image Cohérente avec Déjeuner Gratuit en Utilisant un Seul Indicateur

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

January 23, 2025
Auteurs: Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng
cs.AI

Résumé

Les modèles de génération texte-image peuvent créer des images de haute qualité à partir de descriptions d'entrée. Cependant, ils rencontrent des difficultés pour assurer la génération cohérente des exigences de préservation de l'identité pour la narration. Les approches existantes à ce problème nécessitent généralement un entraînement intensif sur de grands ensembles de données ou des modifications supplémentaires des architectures de modèles originales. Cela limite leur applicabilité à travers différents domaines et diverses configurations de modèles de diffusion. Dans cet article, nous observons d'abord la capacité inhérente des modèles de langage, appelée cohérence contextuelle, à comprendre l'identité à travers le contexte avec une seule description. En nous inspirant de cette cohérence contextuelle inhérente, nous proposons une nouvelle méthode de génération texte-image (T2I) cohérente sans entraînement, appelée "One-Prompt-One-Story" (1Prompt1Story). Notre approche 1Prompt1Story concatène toutes les descriptions en une seule entrée pour les modèles de diffusion T2I, préservant initialement les identités des personnages. Nous affinons ensuite le processus de génération en utilisant deux nouvelles techniques : Rééquilibrage des valeurs singulières et Attention croisée préservant l'identité, garantissant un meilleur alignement avec la description d'entrée pour chaque image. Dans nos expériences, nous comparons notre méthode à diverses approches existantes de génération T2I cohérente pour démontrer son efficacité à travers des mesures quantitatives et des évaluations qualitatives. Le code est disponible sur https://github.com/byliutao/1Prompt1Story.
English
Text-to-image generation models can create high-quality images from input prompts. However, they struggle to support the consistent generation of identity-preserving requirements for storytelling. Existing approaches to this problem typically require extensive training in large datasets or additional modifications to the original model architectures. This limits their applicability across different domains and diverse diffusion model configurations. In this paper, we first observe the inherent capability of language models, coined context consistency, to comprehend identity through context with a single prompt. Drawing inspiration from the inherent context consistency, we propose a novel training-free method for consistent text-to-image (T2I) generation, termed "One-Prompt-One-Story" (1Prompt1Story). Our approach 1Prompt1Story concatenates all prompts into a single input for T2I diffusion models, initially preserving character identities. We then refine the generation process using two novel techniques: Singular-Value Reweighting and Identity-Preserving Cross-Attention, ensuring better alignment with the input description for each frame. In our experiments, we compare our method against various existing consistent T2I generation approaches to demonstrate its effectiveness through quantitative metrics and qualitative assessments. Code is available at https://github.com/byliutao/1Prompt1Story.

Summary

AI-Generated Summary

PDF92January 24, 2025