CoRe: Context-Geregulariseerd Leren van Tekstembeddingen voor Tekst-naar-Afbeelding Personalisatie
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization
August 28, 2024
Auteurs: Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeld-personalisatie heeft hoogwaardige
en controleerbare beeldgeneratie mogelijk gemaakt voor door gebruikers
aangedragen concepten. Bestaande methoden hebben echter nog steeds moeite om
identiteitsbehoud en tekstuitlijning in balans te brengen. Onze aanpak is
gebaseerd op het feit dat het genereren van prompt-uitgelijnde afbeeldingen een
precies semantisch begrip van de prompt vereist, wat het nauwkeurig verwerken
van de interacties tussen het nieuwe concept en de omringende contexttokens
binnen de CLIP-tekstencoder omvat. Om dit aan te pakken, streven we ernaar het
nieuwe concept correct in te bedden in de invoerembeddingruimte van de
tekstencoder, waardoor een naadloze integratie met bestaande tokens mogelijk
wordt. We introduceren Context Regularisatie (CoRe), dat het leren van de
tekstembedding van het nieuwe concept verbetert door de contexttokens in de
prompt te regulariseren. Dit is gebaseerd op het inzicht dat geschikte
uitvoervectoren van de tekstencoder voor de contexttokens alleen kunnen worden
bereikt als de tekstembedding van het nieuwe concept correct wordt geleerd.
CoRe kan worden toegepast op willekeurige prompts zonder dat de generatie van
bijbehorende afbeeldingen vereist is, waardoor de generalisatie van de
geleerde tekstembedding wordt verbeterd. Daarnaast kan CoRe dienen als een
optimalisatietechniek tijdens de testfase om de generaties voor specifieke
prompts verder te verbeteren. Uitgebreide experimenten tonen aan dat onze
methode verschillende baseline-methoden overtreft in zowel identiteitsbehoud
als tekstuitlijning. De code zal publiekelijk beschikbaar worden gemaakt.
English
Recent advances in text-to-image personalization have enabled high-quality
and controllable image synthesis for user-provided concepts. However, existing
methods still struggle to balance identity preservation with text alignment.
Our approach is based on the fact that generating prompt-aligned images
requires a precise semantic understanding of the prompt, which involves
accurately processing the interactions between the new concept and its
surrounding context tokens within the CLIP text encoder. To address this, we
aim to embed the new concept properly into the input embedding space of the
text encoder, allowing for seamless integration with existing tokens. We
introduce Context Regularization (CoRe), which enhances the learning of the new
concept's text embedding by regularizing its context tokens in the prompt. This
is based on the insight that appropriate output vectors of the text encoder for
the context tokens can only be achieved if the new concept's text embedding is
correctly learned. CoRe can be applied to arbitrary prompts without requiring
the generation of corresponding images, thus improving the generalization of
the learned text embedding. Additionally, CoRe can serve as a test-time
optimization technique to further enhance the generations for specific prompts.
Comprehensive experiments demonstrate that our method outperforms several
baseline methods in both identity preservation and text alignment. Code will be
made publicly available.Summary
AI-Generated Summary