ViCo: Condizione Visiva che Preserva i Dettagli per la Generazione Personalizzata di Immagini da Testo

Abstract

La generazione personalizzata di immagini da testo utilizzando modelli di diffusione è stata recentemente proposta e ha attirato molta attenzione. Dato un piccolo numero di immagini contenenti un concetto nuovo (ad esempio, un giocattolo unico), l'obiettivo è adattare il modello generativo per catturare i dettagli visivi fini del nuovo concetto e generare immagini fotorealistiche seguendo una condizione testuale. Presentiamo un metodo plug-in, denominato ViCo, per una generazione personalizzata rapida e leggera. Nello specifico, proponiamo un modulo di attenzione sulle immagini per condizionare il processo di diffusione sulla semantica visiva a livello di patch. Introduciamo una maschera dell'oggetto basata sull'attenzione che viene ottenuta quasi senza costi aggiuntivi dal modulo di attenzione. Inoltre, progettiamo una semplice regolarizzazione basata sulle proprietà intrinseche delle mappe di attenzione testo-immagine per alleviare il comune degrado da overfitting. A differenza di molti modelli esistenti, il nostro metodo non effettua il fine-tuning di alcun parametro del modello di diffusione originale. Ciò consente una distribuzione del modello più flessibile e trasferibile. Con un addestramento di soli pochi parametri (~6% della U-Net di diffusione), il nostro metodo raggiunge prestazioni comparabili o addirittura migliori rispetto a tutti i modelli all'avanguardia, sia qualitativamente che quantitativamente.

English

Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.

ViCo: Condizione Visiva che Preserva i Dettagli per la Generazione Personalizzata di Immagini da Testo

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

Abstract

Support