Residuales Personalizados para la Generación de Imágenes a partir de Texto Basada en Conceptos

Resumen

Presentamos residuos personalizados y muestreo guiado por atención localizada para la generación eficiente basada en conceptos utilizando modelos de difusión de texto a imagen. Nuestro método primero representa los conceptos mediante la congelación de los pesos de un modelo de difusión preentrenado condicionado por texto y el aprendizaje de residuos de bajo rango para un pequeño subconjunto de las capas del modelo. El enfoque basado en residuos permite directamente la aplicación de nuestra técnica de muestreo propuesta, la cual aplica los residuos aprendidos solo en áreas donde el concepto está localizado mediante atención cruzada y aplica los pesos originales de difusión en todas las demás regiones. Por lo tanto, el muestreo localizado combina la identidad aprendida del concepto con el conocimiento generativo previo del modelo de difusión subyacente. Demostramos que los residuos personalizados capturan efectivamente la identidad de un concepto en ~3 minutos en una sola GPU sin el uso de imágenes de regularización y con menos parámetros que modelos anteriores, y que el muestreo localizado permite utilizar el modelo original como un fuerte conocimiento previo para gran parte de la imagen.

English

We present personalized residuals and localized attention-guided sampling for efficient concept-driven generation using text-to-image diffusion models. Our method first represents concepts by freezing the weights of a pretrained text-conditioned diffusion model and learning low-rank residuals for a small subset of the model's layers. The residual-based approach then directly enables application of our proposed sampling technique, which applies the learned residuals only in areas where the concept is localized via cross-attention and applies the original diffusion weights in all other regions. Localized sampling therefore combines the learned identity of the concept with the existing generative prior of the underlying diffusion model. We show that personalized residuals effectively capture the identity of a concept in ~3 minutes on a single GPU without the use of regularization images and with fewer parameters than previous models, and localized sampling allows using the original model as strong prior for large parts of the image.

Residuales Personalizados para la Generación de Imágenes a partir de Texto Basada en Conceptos

Personalized Residuals for Concept-Driven Text-to-Image Generation

Resumen

Support