Residuales Personalizados para la Generación de Imágenes a partir de Texto Basada en Conceptos
Personalized Residuals for Concept-Driven Text-to-Image Generation
May 21, 2024
Autores: Cusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz
cs.AI
Resumen
Presentamos residuos personalizados y muestreo guiado por atención localizada para la generación eficiente basada en conceptos utilizando modelos de difusión de texto a imagen. Nuestro método primero representa los conceptos mediante la congelación de los pesos de un modelo de difusión preentrenado condicionado por texto y el aprendizaje de residuos de bajo rango para un pequeño subconjunto de las capas del modelo. El enfoque basado en residuos permite directamente la aplicación de nuestra técnica de muestreo propuesta, la cual aplica los residuos aprendidos solo en áreas donde el concepto está localizado mediante atención cruzada y aplica los pesos originales de difusión en todas las demás regiones. Por lo tanto, el muestreo localizado combina la identidad aprendida del concepto con el conocimiento generativo previo del modelo de difusión subyacente. Demostramos que los residuos personalizados capturan efectivamente la identidad de un concepto en ~3 minutos en una sola GPU sin el uso de imágenes de regularización y con menos parámetros que modelos anteriores, y que el muestreo localizado permite utilizar el modelo original como un fuerte conocimiento previo para gran parte de la imagen.
English
We present personalized residuals and localized attention-guided sampling for
efficient concept-driven generation using text-to-image diffusion models. Our
method first represents concepts by freezing the weights of a pretrained
text-conditioned diffusion model and learning low-rank residuals for a small
subset of the model's layers. The residual-based approach then directly enables
application of our proposed sampling technique, which applies the learned
residuals only in areas where the concept is localized via cross-attention and
applies the original diffusion weights in all other regions. Localized sampling
therefore combines the learned identity of the concept with the existing
generative prior of the underlying diffusion model. We show that personalized
residuals effectively capture the identity of a concept in ~3 minutes on a
single GPU without the use of regularization images and with fewer parameters
than previous models, and localized sampling allows using the original model as
strong prior for large parts of the image.