CoRe : Apprentissage de l'incorporation de texte régularisée par le contexte pour la personnalisation texte-vers-image

Résumé

Les récentes avancées en matière de personnalisation de texte vers image ont permis une synthèse d'image de haute qualité et contrôlable pour des concepts fournis par l'utilisateur. Cependant, les méthodes existantes peinent toujours à équilibrer la préservation de l'identité avec l'alignement du texte. Notre approche repose sur le fait que la génération d'images alignées sur la consigne nécessite une compréhension sémantique précise de la consigne, ce qui implique de traiter avec précision les interactions entre le nouveau concept et ses jetons de contexte environnants au sein de l'encodeur de texte CLIP. Pour remédier à cela, nous visons à incorporer correctement le nouveau concept dans l'espace d'incorporation d'entrée de l'encodeur de texte, permettant une intégration harmonieuse avec les jetons existants. Nous introduisons la Régularisation de Contexte (CoRe), qui améliore l'apprentissage de l'incorporation de texte du nouveau concept en régularisant ses jetons de contexte dans la consigne. Cela repose sur l'observation que des vecteurs de sortie appropriés de l'encodeur de texte pour les jetons de contexte ne peuvent être obtenus que si l'incorporation de texte du nouveau concept est correctement apprise. CoRe peut être appliqué à des consignes arbitraires sans nécessiter la génération d'images correspondantes, améliorant ainsi la généralisation de l'incorporation de texte apprise. De plus, CoRe peut servir de technique d'optimisation au moment du test pour améliorer davantage les générations pour des consignes spécifiques. Des expériences approfondies démontrent que notre méthode surpasse plusieurs méthodes de référence à la fois en termes de préservation de l'identité et d'alignement du texte. Le code sera rendu publiquement disponible.

English

Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available.

CoRe : Apprentissage de l'incorporation de texte régularisée par le contexte pour la personnalisation texte-vers-image

CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization

Résumé

Support