ChatPaper.aiChatPaper

ワンプロンプトワンストーリー:単一プロンプトを使用したフリーランチ一貫したテキストから画像生成

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

January 23, 2025
著者: Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng
cs.AI

要旨

テキストから画像を生成するモデルは、入力プロンプトから高品質な画像を作成できます。ただし、物語の一貫性を維持するための要件をサポートするのに苦労しています。この問題への既存のアプローチは、通常、大規模なデータセットでの綿密なトレーニングや元のモデルアーキテクチャへの追加の修正を必要とします。これにより、異なるドメインや多様な拡散モデル構成での適用範囲が制限されます。本論文では、最初に言語モデルの固有の能力である「コンテキストの一貫性」を観察し、1 つのプロンプトを通じてコンテキストを介してアイデンティティを理解することを提案します。固有のコンテキストの一貫性からインスピレーションを得て、一貫したテキストから画像(T2I)生成のための新しいトレーニング不要な手法、「One-Prompt-One-Story」(1Prompt1Story)を提案します。当社の手法1Prompt1Storyは、すべてのプロンプトをT2I拡散モデルのための単一の入力に連結し、最初にキャラクターのアイデンティティを維持します。その後、特異値再重み付けとアイデンティティを維持するクロスアテンションという2つの新しい技術を使用して、各フレームに対する入力記述とのより良い整合性を確保するために生成プロセスを洗練します。実験では、定量的指標と定性的評価を通じて、当社の手法をさまざまな既存の一貫したT2I生成アプローチと比較し、その効果を示します。コードは https://github.com/byliutao/1Prompt1Story で入手可能です。
English
Text-to-image generation models can create high-quality images from input prompts. However, they struggle to support the consistent generation of identity-preserving requirements for storytelling. Existing approaches to this problem typically require extensive training in large datasets or additional modifications to the original model architectures. This limits their applicability across different domains and diverse diffusion model configurations. In this paper, we first observe the inherent capability of language models, coined context consistency, to comprehend identity through context with a single prompt. Drawing inspiration from the inherent context consistency, we propose a novel training-free method for consistent text-to-image (T2I) generation, termed "One-Prompt-One-Story" (1Prompt1Story). Our approach 1Prompt1Story concatenates all prompts into a single input for T2I diffusion models, initially preserving character identities. We then refine the generation process using two novel techniques: Singular-Value Reweighting and Identity-Preserving Cross-Attention, ensuring better alignment with the input description for each frame. In our experiments, we compare our method against various existing consistent T2I generation approaches to demonstrate its effectiveness through quantitative metrics and qualitative assessments. Code is available at https://github.com/byliutao/1Prompt1Story.

Summary

AI-Generated Summary

PDF92January 24, 2025