PALP: Prompt-afgestemde personalisatie van tekst-naar-beeldmodellen
PALP: Prompt Aligned Personalization of Text-to-Image Models
January 11, 2024
Auteurs: Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, Ariel Shamir
cs.AI
Samenvatting
Content creators streven vaak naar het maken van gepersonaliseerde afbeeldingen met persoonlijke onderwerpen die verder gaan dan de mogelijkheden van conventionele tekst-naar-beeldmodellen. Bovendien willen ze mogelijk dat de resulterende afbeelding een specifieke locatie, stijl, sfeer en meer omvat. Bestaande personalisatiemethoden kunnen inleveren op personalisatievermogen of de afstemming op complexe tekstuele prompts. Deze afweging kan de vervulling van gebruikersprompts en onderwerptrouw belemmeren. Wij stellen een nieuwe aanpak voor die zich richt op personalisatiemethoden voor een enkele prompt om dit probleem aan te pakken. We noemen onze aanpak prompt-uitgelijnde personalisatie. Hoewel dit beperkend kan lijken, blinkt onze methode uit in het verbeteren van tekstafstemming, waardoor het mogelijk wordt om afbeeldingen te creëren met complexe en gedetailleerde prompts, wat een uitdaging kan vormen voor huidige technieken. In het bijzonder houdt onze methode het gepersonaliseerde model afgestemd op een doelprompt door gebruik te maken van een aanvullende score-distillatie-samplingterm. We demonstreren de veelzijdigheid van onze methode in multi- en single-shot instellingen en laten verder zien dat het meerdere onderwerpen kan samenstellen of inspiratie kan gebruiken van referentieafbeeldingen, zoals kunstwerken. We vergelijken onze aanpak kwantitatief en kwalitatief met bestaande baselines en state-of-the-art technieken.
English
Content creators often aim to create personalized images using personal
subjects that go beyond the capabilities of conventional text-to-image models.
Additionally, they may want the resulting image to encompass a specific
location, style, ambiance, and more. Existing personalization methods may
compromise personalization ability or the alignment to complex textual prompts.
This trade-off can impede the fulfillment of user prompts and subject fidelity.
We propose a new approach focusing on personalization methods for a
single prompt to address this issue. We term our approach prompt-aligned
personalization. While this may seem restrictive, our method excels in
improving text alignment, enabling the creation of images with complex and
intricate prompts, which may pose a challenge for current techniques. In
particular, our method keeps the personalized model aligned with a target
prompt using an additional score distillation sampling term. We demonstrate the
versatility of our method in multi- and single-shot settings and further show
that it can compose multiple subjects or use inspiration from reference images,
such as artworks. We compare our approach quantitatively and qualitatively with
existing baselines and state-of-the-art techniques.