GraPE: 合成的なT2IシンセシスのためのGenerate-Plan-Editフレームワーク
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
December 8, 2024
著者: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI
要旨
テキストから画像(T2I)生成は、拡散モデルにより著しい進歩を遂げ、テキストプロンプトから写真のようなリアルな画像を生成することが可能になりました。この進歩にもかかわらず、既存の手法は依然として、特に合成的で複数段階の推論を必要とする複雑なテキストプロンプトに対処する際に課題に直面しています。このような複雑な指示があると、SOTAモデルはしばしばオブジェクト属性やそれらの関係を忠実にモデリングする際に誤りを comit します。本研究では、T2I合成のための代替パラダイムを提案し、複雑な複数段階の生成タスクを3つのステップに分解します。(a) 生成:まず、既存の拡散モデルを使用して画像を生成します。(b) プラン:Multi-Modal LLMs(MLLMs)を使用して、生成された画像の中の個々のオブジェクトとそれらの特性に関する誤りを特定し、編集計画として必要な修正ステップのシーケンスを生成します。(c) 編集:既存のテキストガイド画像編集モデルを使用して、生成された画像に対して編集計画を順次実行し、元の指示に忠実な所望の画像を取得します。私たちのアプローチは、モジュール式であり、トレーニングが不要であり、任意の組み合わせの画像生成と編集モデルに適用できるという強みを持っています。さらに、提案されたアプローチの全体的な精度を向上させるのに役立つ合成編集が可能なモデルも開発しています。私たちの手法は、合成的なテキストプロンプトに対する性能と推論時間の計算を柔軟にトレードオフします。DALLE-3や最新のSD-3.5-Largeを含む3つのベンチマークと10のT2Iモデルを対象に、包括的な実験評価を行いました。私たちのアプローチは、SOTAモデルの性能を最大3ポイント向上させるだけでなく、弱いモデルと強いモデルの性能差を縮小させます。
English
Text-to-image (T2I) generation has seen significant progress with diffusion
models, enabling generation of photo-realistic images from text prompts.
Despite this progress, existing methods still face challenges in following
complex text prompts, especially those requiring compositional and multi-step
reasoning. Given such complex instructions, SOTA models often make mistakes in
faithfully modeling object attributes, and relationships among them. In this
work, we present an alternate paradigm for T2I synthesis, decomposing the task
of complex multi-step generation into three steps, (a) Generate: we first
generate an image using existing diffusion models (b) Plan: we make use of
Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image
expressed in terms of individual objects and their properties, and produce a
sequence of corrective steps required in the form of an edit-plan. (c) Edit: we
make use of an existing text-guided image editing models to sequentially
execute our edit-plan over the generated image to get the desired image which
is faithful to the original instruction. Our approach derives its strength from
the fact that it is modular in nature, is training free, and can be applied
over any combination of image generation and editing models. As an added
contribution, we also develop a model capable of compositional editing, which
further helps improve the overall accuracy of our proposed approach. Our method
flexibly trades inference time compute with performance on compositional text
prompts. We perform extensive experimental evaluation across 3 benchmarks and
10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach
not only improves the performance of the SOTA models, by upto 3 points, it also
reduces the performance gap between weaker and stronger models.
https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}Summary
AI-Generated Summary