Codificador de Ajuste Independiente del Dominio para la Personalización Rápida de Modelos de Texto a Imagen
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models
July 13, 2023
Autores: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano
cs.AI
Resumen
La personalización de texto a imagen (T2I) permite a los usuarios guiar el proceso de generación creativa de imágenes al combinar sus propios conceptos visuales en indicaciones de lenguaje natural. Recientemente, las técnicas basadas en codificadores han surgido como un nuevo enfoque efectivo para la personalización T2I, reduciendo la necesidad de múltiples imágenes y tiempos de entrenamiento prolongados. Sin embargo, la mayoría de los codificadores existentes están limitados a un dominio de una sola clase, lo que dificulta su capacidad para manejar conceptos diversos. En este trabajo, proponemos un método agnóstico al dominio que no requiere ningún conjunto de datos especializado ni información previa sobre los conceptos personalizados. Introducimos una novedosa técnica de regularización basada en contraste para mantener una alta fidelidad a las características del concepto objetivo, manteniendo las incrustaciones predichas cerca de regiones editables del espacio latente, al empujar los tokens predichos hacia sus tokens CLIP existentes más cercanos. Nuestros resultados experimentales demuestran la efectividad de nuestro enfoque y muestran cómo los tokens aprendidos son más semánticos que los tokens predichos por modelos no regularizados. Esto conduce a una mejor representación que logra un rendimiento de vanguardia mientras es más flexible que los métodos anteriores.
English
Text-to-image (T2I) personalization allows users to guide the creative image
generation process by combining their own visual concepts in natural language
prompts. Recently, encoder-based techniques have emerged as a new effective
approach for T2I personalization, reducing the need for multiple images and
long training times. However, most existing encoders are limited to a
single-class domain, which hinders their ability to handle diverse concepts. In
this work, we propose a domain-agnostic method that does not require any
specialized dataset or prior information about the personalized concepts. We
introduce a novel contrastive-based regularization technique to maintain high
fidelity to the target concept characteristics while keeping the predicted
embeddings close to editable regions of the latent space, by pushing the
predicted tokens toward their nearest existing CLIP tokens. Our experimental
results demonstrate the effectiveness of our approach and show how the learned
tokens are more semantic than tokens predicted by unregularized models. This
leads to a better representation that achieves state-of-the-art performance
while being more flexible than previous methods.