PALP : Personnalisation Alignée sur l'Invite pour les Modèles de Texte-à-Image
PALP: Prompt Aligned Personalization of Text-to-Image Models
January 11, 2024
Auteurs: Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, Ariel Shamir
cs.AI
Résumé
Les créateurs de contenu visent souvent à produire des images personnalisées mettant en scène des sujets personnels qui dépassent les capacités des modèles classiques de génération d'image à partir de texte. De plus, ils peuvent souhaiter que l'image résultante intègre un lieu spécifique, un style, une ambiance, et bien plus encore. Les méthodes de personnalisation existantes peuvent compromettre soit la capacité de personnalisation, soit l'alignement avec des prompts textuels complexes. Ce compromis peut entraver la satisfaction des prompts utilisateurs et la fidélité au sujet. Nous proposons une nouvelle approche centrée sur les méthodes de personnalisation pour un seul prompt afin de résoudre ce problème. Nous nommons notre approche "personnalisation alignée au prompt". Bien que cela puisse sembler restrictif, notre méthode excelle à améliorer l'alignement textuel, permettant la création d'images avec des prompts complexes et détaillés, ce qui peut représenter un défi pour les techniques actuelles. En particulier, notre méthode maintient le modèle personnalisé aligné avec un prompt cible en utilisant un terme supplémentaire de distillation d'échantillonnage par score. Nous démontrons la polyvalence de notre méthode dans des configurations multi-shot et single-shot, et montrons en outre qu'elle peut composer plusieurs sujets ou s'inspirer d'images de référence, telles que des œuvres d'art. Nous comparons quantitativement et qualitativement notre approche avec les techniques de référence existantes et les méthodes de pointe.
English
Content creators often aim to create personalized images using personal
subjects that go beyond the capabilities of conventional text-to-image models.
Additionally, they may want the resulting image to encompass a specific
location, style, ambiance, and more. Existing personalization methods may
compromise personalization ability or the alignment to complex textual prompts.
This trade-off can impede the fulfillment of user prompts and subject fidelity.
We propose a new approach focusing on personalization methods for a
single prompt to address this issue. We term our approach prompt-aligned
personalization. While this may seem restrictive, our method excels in
improving text alignment, enabling the creation of images with complex and
intricate prompts, which may pose a challenge for current techniques. In
particular, our method keeps the personalized model aligned with a target
prompt using an additional score distillation sampling term. We demonstrate the
versatility of our method in multi- and single-shot settings and further show
that it can compose multiple subjects or use inspiration from reference images,
such as artworks. We compare our approach quantitatively and qualitatively with
existing baselines and state-of-the-art techniques.