CoRe: Aprendizaje de Incrustación de Texto Regularizado por Contexto para la Personalización de Texto a Imagen
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization
August 28, 2024
Autores: Feize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
cs.AI
Resumen
Los avances recientes en personalización de texto a imagen han permitido una síntesis de imágenes de alta calidad y controlable para conceptos proporcionados por el usuario. Sin embargo, los métodos existentes aún tienen dificultades para equilibrar la preservación de la identidad con la alineación del texto. Nuestro enfoque se basa en el hecho de que generar imágenes alineadas con la indicación requiere una comprensión semántica precisa de la indicación, lo que implica procesar con precisión las interacciones entre el nuevo concepto y sus tokens de contexto circundantes dentro del codificador de texto CLIP. Para abordar esto, nuestro objetivo es incrustar adecuadamente el nuevo concepto en el espacio de incrustación de entrada del codificador de texto, lo que permite una integración fluida con los tokens existentes. Introducimos Regularización de Contexto (CoRe), que mejora el aprendizaje de la incrustación de texto del nuevo concepto al regularizar sus tokens de contexto en la indicación. Esto se basa en la idea de que solo se pueden lograr vectores de salida apropiados del codificador de texto para los tokens de contexto si la incrustación de texto del nuevo concepto se aprende correctamente. CoRe se puede aplicar a indicaciones arbitrarias sin requerir la generación de imágenes correspondientes, mejorando así la generalización de la incrustación de texto aprendida. Además, CoRe puede servir como una técnica de optimización en tiempo de prueba para mejorar aún más las generaciones para indicaciones específicas. Experimentos exhaustivos demuestran que nuestro método supera a varios métodos de referencia tanto en la preservación de la identidad como en la alineación del texto. El código estará disponible públicamente.
English
Recent advances in text-to-image personalization have enabled high-quality
and controllable image synthesis for user-provided concepts. However, existing
methods still struggle to balance identity preservation with text alignment.
Our approach is based on the fact that generating prompt-aligned images
requires a precise semantic understanding of the prompt, which involves
accurately processing the interactions between the new concept and its
surrounding context tokens within the CLIP text encoder. To address this, we
aim to embed the new concept properly into the input embedding space of the
text encoder, allowing for seamless integration with existing tokens. We
introduce Context Regularization (CoRe), which enhances the learning of the new
concept's text embedding by regularizing its context tokens in the prompt. This
is based on the insight that appropriate output vectors of the text encoder for
the context tokens can only be achieved if the new concept's text embedding is
correctly learned. CoRe can be applied to arbitrary prompts without requiring
the generation of corresponding images, thus improving the generalization of
the learned text embedding. Additionally, CoRe can serve as a test-time
optimization technique to further enhance the generations for specific prompts.
Comprehensive experiments demonstrate that our method outperforms several
baseline methods in both identity preservation and text alignment. Code will be
made publicly available.Summary
AI-Generated Summary