ChatPaper.aiChatPaper

Encodeur d'ajustement indépendant du domaine pour la personnalisation rapide des modèles de génération d'images à partir de texte

Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models

July 13, 2023
Auteurs: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano
cs.AI

Résumé

La personnalisation texte-image (T2I) permet aux utilisateurs de guider le processus de génération créative d'images en combinant leurs propres concepts visuels dans des invites en langage naturel. Récemment, les techniques basées sur des encodeurs ont émergé comme une nouvelle approche efficace pour la personnalisation T2I, réduisant le besoin de multiples images et de longs temps d'entraînement. Cependant, la plupart des encodeurs existants sont limités à un domaine de classe unique, ce qui entrave leur capacité à gérer des concepts diversifiés. Dans ce travail, nous proposons une méthode agnostique au domaine qui ne nécessite aucun ensemble de données spécialisé ni information préalable sur les concepts personnalisés. Nous introduisons une nouvelle technique de régularisation basée sur le contraste pour maintenir une haute fidélité aux caractéristiques du concept cible tout en gardant les embeddings prédits proches des zones modifiables de l'espace latent, en poussant les tokens prédits vers leurs tokens CLIP existants les plus proches. Nos résultats expérimentaux démontrent l'efficacité de notre approche et montrent comment les tokens appris sont plus sémantiques que ceux prédits par des modèles non régularisés. Cela conduit à une meilleure représentation qui atteint des performances de pointe tout en étant plus flexible que les méthodes précédentes.
English
Text-to-image (T2I) personalization allows users to guide the creative image generation process by combining their own visual concepts in natural language prompts. Recently, encoder-based techniques have emerged as a new effective approach for T2I personalization, reducing the need for multiple images and long training times. However, most existing encoders are limited to a single-class domain, which hinders their ability to handle diverse concepts. In this work, we propose a domain-agnostic method that does not require any specialized dataset or prior information about the personalized concepts. We introduce a novel contrastive-based regularization technique to maintain high fidelity to the target concept characteristics while keeping the predicted embeddings close to editable regions of the latent space, by pushing the predicted tokens toward their nearest existing CLIP tokens. Our experimental results demonstrate the effectiveness of our approach and show how the learned tokens are more semantic than tokens predicted by unregularized models. This leads to a better representation that achieves state-of-the-art performance while being more flexible than previous methods.
PDF110December 15, 2024