ChatPaper.aiChatPaper

ViCo: Condición Visual que Preserva Detalles para la Generación Personalizada de Imágenes a partir de Texto

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

June 1, 2023
Autores: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
cs.AI

Resumen

La generación personalizada de imágenes a partir de texto utilizando modelos de difusión ha sido propuesta recientemente y ha atraído mucha atención. Dado un pequeño conjunto de imágenes que contienen un concepto novedoso (por ejemplo, un juguete único), nuestro objetivo es ajustar el modelo generativo para capturar detalles visuales precisos del concepto novedoso y generar imágenes fotorrealistas siguiendo una condición de texto. Presentamos un método complementario, denominado ViCo, para una generación personalizada rápida y ligera. Específicamente, proponemos un módulo de atención basado en imágenes para condicionar el proceso de difusión en la semántica visual por parches. Introducimos una máscara de objetos basada en atención que se obtiene prácticamente sin costo adicional a partir del módulo de atención. Además, diseñamos una regularización simple basada en las propiedades intrínsecas de los mapas de atención texto-imagen para mitigar la degradación común por sobreajuste. A diferencia de muchos modelos existentes, nuestro método no ajusta ningún parámetro del modelo de difusión original. Esto permite un despliegue del modelo más flexible y transferible. Con solo un entrenamiento ligero de parámetros (~6% de la U-Net de difusión), nuestro método logra un rendimiento comparable o incluso superior al de todos los modelos de última generación, tanto cualitativa como cuantitativamente.
English
Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.
PDF40December 15, 2024