Domein-Onafhankelijke Afstemmings-Encoder voor Snelle Personalisatie van Tekst-Naar-Beeld Modellen
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models
July 13, 2023
Auteurs: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano
cs.AI
Samenvatting
Text-to-image (T2I)-personalisatie stelt gebruikers in staat om het creatieve beeldgeneratieproces te sturen door hun eigen visuele concepten te combineren in natuurlijke taalprompts. Recent zijn encoder-gebaseerde technieken naar voren gekomen als een nieuwe effectieve aanpak voor T2I-personalisatie, waardoor de behoefte aan meerdere afbeeldingen en lange trainingstijden wordt verminderd. De meeste bestaande encoders zijn echter beperkt tot een domein met één klasse, wat hun vermogen om diverse concepten te verwerken belemmert. In dit werk stellen we een domein-agnostische methode voor die geen gespecialiseerde dataset of voorafgaande informatie over de gepersonaliseerde concepten vereist. We introduceren een nieuwe contrastieve regularisatietechniek om een hoge trouw aan de kenmerken van het doelconcept te behouden, terwijl de voorspelde embeddings dicht bij bewerkbare regio's van de latente ruimte blijven, door de voorspelde tokens naar hun dichtstbijzijnde bestaande CLIP-tokens te duwen. Onze experimentele resultaten tonen de effectiviteit van onze aanpak aan en laten zien hoe de geleerde tokens semantischer zijn dan tokens die door niet-geregulariseerde modellen worden voorspeld. Dit leidt tot een betere representatie die state-of-the-art prestaties bereikt, terwijl het flexibeler is dan eerdere methoden.
English
Text-to-image (T2I) personalization allows users to guide the creative image
generation process by combining their own visual concepts in natural language
prompts. Recently, encoder-based techniques have emerged as a new effective
approach for T2I personalization, reducing the need for multiple images and
long training times. However, most existing encoders are limited to a
single-class domain, which hinders their ability to handle diverse concepts. In
this work, we propose a domain-agnostic method that does not require any
specialized dataset or prior information about the personalized concepts. We
introduce a novel contrastive-based regularization technique to maintain high
fidelity to the target concept characteristics while keeping the predicted
embeddings close to editable regions of the latent space, by pushing the
predicted tokens toward their nearest existing CLIP tokens. Our experimental
results demonstrate the effectiveness of our approach and show how the learned
tokens are more semantic than tokens predicted by unregularized models. This
leads to a better representation that achieves state-of-the-art performance
while being more flexible than previous methods.