ChatPaper.aiChatPaper

CoRe: Context-Geregulariseerd Leren van Tekstembeddingen voor Tekst-naar-Afbeelding Personalisatie

CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization

August 28, 2024
Auteurs: Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-beeld-personalisatie heeft hoogwaardige en controleerbare beeldgeneratie mogelijk gemaakt voor door gebruikers aangedragen concepten. Bestaande methoden hebben echter nog steeds moeite om identiteitsbehoud en tekstuitlijning in balans te brengen. Onze aanpak is gebaseerd op het feit dat het genereren van prompt-uitgelijnde afbeeldingen een precies semantisch begrip van de prompt vereist, wat het nauwkeurig verwerken van de interacties tussen het nieuwe concept en de omringende contexttokens binnen de CLIP-tekstencoder omvat. Om dit aan te pakken, streven we ernaar het nieuwe concept correct in te bedden in de invoerembeddingruimte van de tekstencoder, waardoor een naadloze integratie met bestaande tokens mogelijk wordt. We introduceren Context Regularisatie (CoRe), dat het leren van de tekstembedding van het nieuwe concept verbetert door de contexttokens in de prompt te regulariseren. Dit is gebaseerd op het inzicht dat geschikte uitvoervectoren van de tekstencoder voor de contexttokens alleen kunnen worden bereikt als de tekstembedding van het nieuwe concept correct wordt geleerd. CoRe kan worden toegepast op willekeurige prompts zonder dat de generatie van bijbehorende afbeeldingen vereist is, waardoor de generalisatie van de geleerde tekstembedding wordt verbeterd. Daarnaast kan CoRe dienen als een optimalisatietechniek tijdens de testfase om de generaties voor specifieke prompts verder te verbeteren. Uitgebreide experimenten tonen aan dat onze methode verschillende baseline-methoden overtreft in zowel identiteitsbehoud als tekstuitlijning. De code zal publiekelijk beschikbaar worden gemaakt.
English
Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available.

Summary

AI-Generated Summary

PDF257November 16, 2024