ViCo: Condição Visual de Preservação de Detalhes para Geração Personalizada de Texto para Imagem

Resumo

A geração personalizada de imagens a partir de texto usando modelos de difusão foi recentemente proposta e tem atraído muita atenção. Dado um pequeno conjunto de imagens contendo um conceito novo (por exemplo, um brinquedo único), nosso objetivo é ajustar o modelo generativo para capturar detalhes visuais refinados desse conceito e gerar imagens foto-realistas seguindo uma condição de texto. Apresentamos um método plug-in, denominado ViCo, para geração personalizada rápida e leve. Especificamente, propomos um módulo de atenção de imagem para condicionar o processo de difusão na semântica visual baseada em patches. Introduzimos uma máscara de objeto baseada em atenção que é obtida praticamente sem custo adicional a partir do módulo de atenção. Além disso, projetamos uma regularização simples baseada nas propriedades intrínsecas dos mapas de atenção texto-imagem para aliviar a degradação comum por sobreajuste. Diferente de muitos modelos existentes, nosso método não ajusta nenhum parâmetro do modelo de difusão original. Isso permite uma implantação de modelo mais flexível e transferível. Com apenas um treinamento leve de parâmetros (~6% da U-Net de difusão), nosso método alcança desempenho comparável ou até superior a todos os modelos state-of-the-art, tanto qualitativa quanto quantitativamente.

English

Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.

ViCo: Condição Visual de Preservação de Detalhes para Geração Personalizada de Texto para Imagem

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

Resumo

Support