PALP: Promptausgerichtete Personalisierung von Text-zu-Bild-Modellen
PALP: Prompt Aligned Personalization of Text-to-Image Models
January 11, 2024
Autoren: Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, Ariel Shamir
cs.AI
Zusammenfassung
Content Creatoren streben oft an, personalisierte Bilder mit persönlichen Motiven zu erstellen, die über die Fähigkeiten konventioneller Text-zu-Bild-Modelle hinausgehen. Darüber hinaus möchten sie möglicherweise, dass das resultierende Bild einen bestimmten Ort, Stil, eine bestimmte Atmosphäre und mehr umfasst. Bestehende Personalisierungsmethoden können entweder die Personalisierungsfähigkeit oder die Ausrichtung auf komplexe textuelle Eingaben beeinträchtigen. Dieser Kompromiss kann die Erfüllung von Benutzereingaben und die Treue zum Motiv behindern. Wir schlagen einen neuen Ansatz vor, der sich auf Personalisierungsmethoden für eine einzelne Eingabe konzentriert, um dieses Problem zu lösen. Wir bezeichnen unseren Ansatz als prompt-aligned Personalization. Obwohl dies restriktiv erscheinen mag, zeichnet sich unsere Methode dadurch aus, die Textausrichtung zu verbessern und die Erstellung von Bildern mit komplexen und detaillierten Eingaben zu ermöglichen, was für aktuelle Techniken eine Herausforderung darstellen kann. Insbesondere hält unsere Methode das personalisierte Modell mithilfe eines zusätzlichen Score-Distillation-Sampling-Terms an eine Zielvorgabe ausgerichtet. Wir demonstrieren die Vielseitigkeit unserer Methode in Multi- und Single-Shot-Szenarien und zeigen weiterhin, dass sie mehrere Motive kombinieren oder Inspiration aus Referenzbildern, wie Kunstwerken, nutzen kann. Wir vergleichen unseren Ansatz quantitativ und qualitativ mit bestehenden Baselines und State-of-the-Art-Techniken.
English
Content creators often aim to create personalized images using personal
subjects that go beyond the capabilities of conventional text-to-image models.
Additionally, they may want the resulting image to encompass a specific
location, style, ambiance, and more. Existing personalization methods may
compromise personalization ability or the alignment to complex textual prompts.
This trade-off can impede the fulfillment of user prompts and subject fidelity.
We propose a new approach focusing on personalization methods for a
single prompt to address this issue. We term our approach prompt-aligned
personalization. While this may seem restrictive, our method excels in
improving text alignment, enabling the creation of images with complex and
intricate prompts, which may pose a challenge for current techniques. In
particular, our method keeps the personalized model aligned with a target
prompt using an additional score distillation sampling term. We demonstrate the
versatility of our method in multi- and single-shot settings and further show
that it can compose multiple subjects or use inspiration from reference images,
such as artworks. We compare our approach quantitatively and qualitatively with
existing baselines and state-of-the-art techniques.