ワンプロンプトワンストーリー:単一プロンプトを使用したフリーランチ一貫したテキストから画像生成
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt
January 23, 2025
著者: Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng
cs.AI
要旨
テキストから画像を生成するモデルは、入力プロンプトから高品質な画像を作成できます。ただし、物語の一貫性を維持するための要件をサポートするのに苦労しています。この問題への既存のアプローチは、通常、大規模なデータセットでの綿密なトレーニングや元のモデルアーキテクチャへの追加の修正を必要とします。これにより、異なるドメインや多様な拡散モデル構成での適用範囲が制限されます。本論文では、最初に言語モデルの固有の能力である「コンテキストの一貫性」を観察し、1 つのプロンプトを通じてコンテキストを介してアイデンティティを理解することを提案します。固有のコンテキストの一貫性からインスピレーションを得て、一貫したテキストから画像(T2I)生成のための新しいトレーニング不要な手法、「One-Prompt-One-Story」(1Prompt1Story)を提案します。当社の手法1Prompt1Storyは、すべてのプロンプトをT2I拡散モデルのための単一の入力に連結し、最初にキャラクターのアイデンティティを維持します。その後、特異値再重み付けとアイデンティティを維持するクロスアテンションという2つの新しい技術を使用して、各フレームに対する入力記述とのより良い整合性を確保するために生成プロセスを洗練します。実験では、定量的指標と定性的評価を通じて、当社の手法をさまざまな既存の一貫したT2I生成アプローチと比較し、その効果を示します。コードは https://github.com/byliutao/1Prompt1Story で入手可能です。
English
Text-to-image generation models can create high-quality images from input
prompts. However, they struggle to support the consistent generation of
identity-preserving requirements for storytelling. Existing approaches to this
problem typically require extensive training in large datasets or additional
modifications to the original model architectures. This limits their
applicability across different domains and diverse diffusion model
configurations. In this paper, we first observe the inherent capability of
language models, coined context consistency, to comprehend identity through
context with a single prompt. Drawing inspiration from the inherent context
consistency, we propose a novel training-free method for consistent
text-to-image (T2I) generation, termed "One-Prompt-One-Story" (1Prompt1Story).
Our approach 1Prompt1Story concatenates all prompts into a single input for T2I
diffusion models, initially preserving character identities. We then refine the
generation process using two novel techniques: Singular-Value Reweighting and
Identity-Preserving Cross-Attention, ensuring better alignment with the input
description for each frame. In our experiments, we compare our method against
various existing consistent T2I generation approaches to demonstrate its
effectiveness through quantitative metrics and qualitative assessments. Code is
available at https://github.com/byliutao/1Prompt1Story.Summary
AI-Generated Summary