CoRe : Apprentissage de l'incorporation de texte régularisée par le contexte pour la personnalisation texte-vers-image
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization
August 28, 2024
Auteurs: Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
cs.AI
Résumé
Les récentes avancées en matière de personnalisation de texte vers image ont permis une synthèse d'image de haute qualité et contrôlable pour des concepts fournis par l'utilisateur. Cependant, les méthodes existantes peinent toujours à équilibrer la préservation de l'identité avec l'alignement du texte. Notre approche repose sur le fait que la génération d'images alignées sur la consigne nécessite une compréhension sémantique précise de la consigne, ce qui implique de traiter avec précision les interactions entre le nouveau concept et ses jetons de contexte environnants au sein de l'encodeur de texte CLIP. Pour remédier à cela, nous visons à incorporer correctement le nouveau concept dans l'espace d'incorporation d'entrée de l'encodeur de texte, permettant une intégration harmonieuse avec les jetons existants. Nous introduisons la Régularisation de Contexte (CoRe), qui améliore l'apprentissage de l'incorporation de texte du nouveau concept en régularisant ses jetons de contexte dans la consigne. Cela repose sur l'observation que des vecteurs de sortie appropriés de l'encodeur de texte pour les jetons de contexte ne peuvent être obtenus que si l'incorporation de texte du nouveau concept est correctement apprise. CoRe peut être appliqué à des consignes arbitraires sans nécessiter la génération d'images correspondantes, améliorant ainsi la généralisation de l'incorporation de texte apprise. De plus, CoRe peut servir de technique d'optimisation au moment du test pour améliorer davantage les générations pour des consignes spécifiques. Des expériences approfondies démontrent que notre méthode surpasse plusieurs méthodes de référence à la fois en termes de préservation de l'identité et d'alignement du texte. Le code sera rendu publiquement disponible.
English
Recent advances in text-to-image personalization have enabled high-quality
and controllable image synthesis for user-provided concepts. However, existing
methods still struggle to balance identity preservation with text alignment.
Our approach is based on the fact that generating prompt-aligned images
requires a precise semantic understanding of the prompt, which involves
accurately processing the interactions between the new concept and its
surrounding context tokens within the CLIP text encoder. To address this, we
aim to embed the new concept properly into the input embedding space of the
text encoder, allowing for seamless integration with existing tokens. We
introduce Context Regularization (CoRe), which enhances the learning of the new
concept's text embedding by regularizing its context tokens in the prompt. This
is based on the insight that appropriate output vectors of the text encoder for
the context tokens can only be achieved if the new concept's text embedding is
correctly learned. CoRe can be applied to arbitrary prompts without requiring
the generation of corresponding images, thus improving the generalization of
the learned text embedding. Additionally, CoRe can serve as a test-time
optimization technique to further enhance the generations for specific prompts.
Comprehensive experiments demonstrate that our method outperforms several
baseline methods in both identity preservation and text alignment. Code will be
made publicly available.Summary
AI-Generated Summary