CoRe: Kontextregulierte Texteinbettung für die Personalisierung von Text-zu-Bild.
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization
August 28, 2024
Autoren: Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte in der Personalisierung von Text-zu-Bild die hochwertige und steuerbare Bildsynthese für vom Benutzer bereitgestellte Konzepte ermöglicht. Allerdings haben bestehende Methoden nach wie vor Schwierigkeiten, die Balance zwischen Identitätserhaltung und Textausrichtung zu finden. Unser Ansatz beruht darauf, dass die Generierung von prompt-ausgerichteten Bildern ein präzises semantisches Verständnis des Prompts erfordert, was eine genaue Verarbeitung der Interaktionen zwischen dem neuen Konzept und seinen umgebenden Kontext-Token innerhalb des CLIP-Textencoders einschließt. Um dies anzugehen, zielen wir darauf ab, das neue Konzept ordnungsgemäß in den Eingabe-Einbettungsraum des Textencoders zu integrieren, um eine nahtlose Integration mit den bestehenden Tokens zu ermöglichen. Wir führen die Kontextregulierung (CoRe) ein, die das Lernen der Texteinbettung des neuen Konzepts durch Regulierung seiner Kontext-Token im Prompt verbessert. Dies basiert auf der Erkenntnis, dass angemessene Ausgabebereiche des Textencoders für die Kontext-Token nur erreicht werden können, wenn die Texteinbettung des neuen Konzepts korrekt erlernt wird. CoRe kann auf beliebige Prompts angewendet werden, ohne dass die Generierung entsprechender Bilder erforderlich ist, was die Verallgemeinerung der erlernten Texteinbettung verbessert. Darüber hinaus kann CoRe als Testzeit-Optimierungstechnik dienen, um die Generierungen für spezifische Prompts weiter zu verbessern. Umfassende Experimente zeigen, dass unsere Methode mehrere Basislinienmethoden sowohl im Identitätserhalt als auch in der Textausrichtung übertrifft. Der Code wird öffentlich zugänglich gemacht.
English
Recent advances in text-to-image personalization have enabled high-quality
and controllable image synthesis for user-provided concepts. However, existing
methods still struggle to balance identity preservation with text alignment.
Our approach is based on the fact that generating prompt-aligned images
requires a precise semantic understanding of the prompt, which involves
accurately processing the interactions between the new concept and its
surrounding context tokens within the CLIP text encoder. To address this, we
aim to embed the new concept properly into the input embedding space of the
text encoder, allowing for seamless integration with existing tokens. We
introduce Context Regularization (CoRe), which enhances the learning of the new
concept's text embedding by regularizing its context tokens in the prompt. This
is based on the insight that appropriate output vectors of the text encoder for
the context tokens can only be achieved if the new concept's text embedding is
correctly learned. CoRe can be applied to arbitrary prompts without requiring
the generation of corresponding images, thus improving the generalization of
the learned text embedding. Additionally, CoRe can serve as a test-time
optimization technique to further enhance the generations for specific prompts.
Comprehensive experiments demonstrate that our method outperforms several
baseline methods in both identity preservation and text alignment. Code will be
made publicly available.Summary
AI-Generated Summary