ChatPaper.aiChatPaper

PALP: テキスト画像生成モデルのプロンプト整合型パーソナライゼーション

PALP: Prompt Aligned Personalization of Text-to-Image Models

January 11, 2024
著者: Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, Ariel Shamir
cs.AI

要旨

コンテンツクリエイターは、従来のテキストから画像へのモデルを超えたパーソナライズされた画像を個人の被写体を用いて作成することを目指すことが多い。さらに、生成された画像が特定の場所、スタイル、雰囲気などを包含することを望む場合もある。既存のパーソナライゼーション手法では、パーソナライゼーション能力や複雑なテキストプロンプトへの適合性が損なわれる可能性がある。このトレードオフは、ユーザープロンプトの実現と被写体の忠実性の達成を妨げる要因となり得る。 我々はこの問題に対処するため、単一プロンプトに焦点を当てた新しいパーソナライゼーション手法を提案する。この手法をプロンプト整合型パーソナライゼーションと称する。一見制限的に思えるかもしれないが、本手法はテキスト整合性の向上に優れており、現在の技術では困難な複雑で入り組んだプロンプトによる画像作成を可能にする。特に、本手法は追加のスコア蒸留サンプリング項を用いて、パーソナライズされたモデルをターゲットプロンプトに整合させた状態に保つ。 我々は、マルチショットおよびシングルショット設定における本手法の汎用性を実証し、さらに複数の被写体を合成したり、美術作品などの参照画像からインスピレーションを得たりできることを示す。既存のベースライン手法および最先端技術と、提案手法を定量的・質的に比較検証する。
English
Content creators often aim to create personalized images using personal subjects that go beyond the capabilities of conventional text-to-image models. Additionally, they may want the resulting image to encompass a specific location, style, ambiance, and more. Existing personalization methods may compromise personalization ability or the alignment to complex textual prompts. This trade-off can impede the fulfillment of user prompts and subject fidelity. We propose a new approach focusing on personalization methods for a single prompt to address this issue. We term our approach prompt-aligned personalization. While this may seem restrictive, our method excels in improving text alignment, enabling the creation of images with complex and intricate prompts, which may pose a challenge for current techniques. In particular, our method keeps the personalized model aligned with a target prompt using an additional score distillation sampling term. We demonstrate the versatility of our method in multi- and single-shot settings and further show that it can compose multiple subjects or use inspiration from reference images, such as artworks. We compare our approach quantitatively and qualitatively with existing baselines and state-of-the-art techniques.
PDF502February 7, 2026