Domain-agnostischer Tuning-Encoder für die schnelle Personalisierung von Text-zu-Bild-Modellen
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models
July 13, 2023
Autoren: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano
cs.AI
Zusammenfassung
Text-to-Image (T2I)-Personalisierung ermöglicht es Benutzern, den kreativen Bildgenerierungsprozess zu steuern, indem sie ihre eigenen visuellen Konzepte in natürlichen Sprachbefehlen kombinieren. Kürzlich haben encoderbasierte Techniken als neuer effektiver Ansatz für die T2I-Personalisierung an Bedeutung gewonnen, wodurch der Bedarf an mehreren Bildern und langen Trainingszeiten reduziert wird. Die meisten bestehenden Encoder sind jedoch auf einen Einzelklassenbereich beschränkt, was ihre Fähigkeit zur Handhabung diverser Konzepte einschränkt. In dieser Arbeit schlagen wir eine domänenunabhängige Methode vor, die keinen spezialisierten Datensatz oder Vorwissen über die personalisierten Konzepte erfordert. Wir führen eine neuartige, kontrastbasierte Regularisierungstechnik ein, um eine hohe Treue zu den Merkmalen des Zielkonzepts beizubehalten, während die vorhergesagten Embeddings in editierbaren Bereichen des latenten Raums gehalten werden, indem die vorhergesagten Token in Richtung ihrer nächsten vorhandenen CLIP-Token geschoben werden. Unsere experimentellen Ergebnisse demonstrieren die Effektivität unseres Ansatzes und zeigen, dass die gelernten Token semantisch aussagekräftiger sind als die von nicht regularisierten Modellen vorhergesagten Token. Dies führt zu einer besseren Repräsentation, die state-of-the-art Leistung erzielt und gleichzeitig flexibler ist als bisherige Methoden.
English
Text-to-image (T2I) personalization allows users to guide the creative image
generation process by combining their own visual concepts in natural language
prompts. Recently, encoder-based techniques have emerged as a new effective
approach for T2I personalization, reducing the need for multiple images and
long training times. However, most existing encoders are limited to a
single-class domain, which hinders their ability to handle diverse concepts. In
this work, we propose a domain-agnostic method that does not require any
specialized dataset or prior information about the personalized concepts. We
introduce a novel contrastive-based regularization technique to maintain high
fidelity to the target concept characteristics while keeping the predicted
embeddings close to editable regions of the latent space, by pushing the
predicted tokens toward their nearest existing CLIP tokens. Our experimental
results demonstrate the effectiveness of our approach and show how the learned
tokens are more semantic than tokens predicted by unregularized models. This
leads to a better representation that achieves state-of-the-art performance
while being more flexible than previous methods.