ChatPaper.aiChatPaper

IPAdapter-Instruct: 指示プロンプトを用いた画像ベース条件付けの曖昧性解消

IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts

August 6, 2024
著者: Ciara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné
cs.AI

要旨

Diffusionモデルは最先端の画像生成の限界を常に押し広げていますが、そのプロセスを微妙に制御することは困難です。実際、テキストプロンプトでは画像のスタイルや細かい構造的詳細(例えば顔)を正確に記述するには不十分であることが実証されています。ControlNetやIPAdapterは、生成プロセスを画像に基づいて条件付けることでこの欠点を解決しますが、個々のインスタンスは単一の条件付き事後分布をモデル化することに限定されています。同じワークフロー内で複数の異なる事後分布を必要とする実用的なユースケースでは、複数のアダプターを訓練して使用するのは煩雑です。我々は、IPAdapter-Instructを提案します。これは、自然画像の条件付けと「Instruct」プロンプトを組み合わせ、同じ条件付け画像に対して異なる解釈(スタイル転送、オブジェクト抽出、その両方、または他の何か)を切り替えることを可能にします。IPAdapter-Instructは、タスクごとに専用のモデルと比較して品質の低下を最小限に抑えながら、複数のタスクを効率的に学習します。
English
Diffusion models continuously push the boundary of state-of-the-art image generation, but the process is hard to control with any nuance: practice proves that textual prompts are inadequate for accurately describing image style or fine structural details (such as faces). ControlNet and IPAdapter address this shortcoming by conditioning the generative process on imagery instead, but each individual instance is limited to modeling a single conditional posterior: for practical use-cases, where multiple different posteriors are desired within the same workflow, training and using multiple adapters is cumbersome. We propose IPAdapter-Instruct, which combines natural-image conditioning with ``Instruct'' prompts to swap between interpretations for the same conditioning image: style transfer, object extraction, both, or something else still? IPAdapterInstruct efficiently learns multiple tasks with minimal loss in quality compared to dedicated per-task models.

Summary

AI-Generated Summary

PDF232November 28, 2024