ViCo: Condición Visual que Preserva Detalles para la Generación Personalizada de Imágenes a partir de Texto
ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation
June 1, 2023
Autores: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
cs.AI
Resumen
La generación personalizada de imágenes a partir de texto utilizando modelos de difusión ha sido propuesta recientemente y ha atraído mucha atención. Dado un pequeño conjunto de imágenes que contienen un concepto novedoso (por ejemplo, un juguete único), nuestro objetivo es ajustar el modelo generativo para capturar detalles visuales precisos del concepto novedoso y generar imágenes fotorrealistas siguiendo una condición de texto. Presentamos un método complementario, denominado ViCo, para una generación personalizada rápida y ligera. Específicamente, proponemos un módulo de atención basado en imágenes para condicionar el proceso de difusión en la semántica visual por parches. Introducimos una máscara de objetos basada en atención que se obtiene prácticamente sin costo adicional a partir del módulo de atención. Además, diseñamos una regularización simple basada en las propiedades intrínsecas de los mapas de atención texto-imagen para mitigar la degradación común por sobreajuste. A diferencia de muchos modelos existentes, nuestro método no ajusta ningún parámetro del modelo de difusión original. Esto permite un despliegue del modelo más flexible y transferible. Con solo un entrenamiento ligero de parámetros (~6% de la U-Net de difusión), nuestro método logra un rendimiento comparable o incluso superior al de todos los modelos de última generación, tanto cualitativa como cuantitativamente.
English
Personalized text-to-image generation using diffusion models has recently
been proposed and attracted lots of attention. Given a handful of images
containing a novel concept (e.g., a unique toy), we aim to tune the generative
model to capture fine visual details of the novel concept and generate
photorealistic images following a text condition. We present a plug-in method,
named ViCo, for fast and lightweight personalized generation. Specifically, we
propose an image attention module to condition the diffusion process on the
patch-wise visual semantics. We introduce an attention-based object mask that
comes almost at no cost from the attention module. In addition, we design a
simple regularization based on the intrinsic properties of text-image attention
maps to alleviate the common overfitting degradation. Unlike many existing
models, our method does not finetune any parameters of the original diffusion
model. This allows more flexible and transferable model deployment. With only
light parameter training (~6% of the diffusion U-Net), our method achieves
comparable or even better performance than all state-of-the-art models both
qualitatively and quantitatively.