ViCo: Detailgetrouwe visuele conditionering voor gepersonaliseerde tekst-naar-beeldgeneratie

Samenvatting

Gepersonaliseerde tekst-naar-beeldgeneratie met behulp van diffusiemodellen is recent voorgesteld en heeft veel aandacht getrokken. Gegeven een handvol afbeeldingen die een nieuw concept bevatten (bijvoorbeeld een uniek speeltje), streven we ernaar om het generatieve model af te stemmen om fijne visuele details van het nieuwe concept vast te leggen en fotorealistische afbeeldingen te genereren die voldoen aan een tekstconditie. We presenteren een plug-in methode, genaamd ViCo, voor snelle en lichtgewicht gepersonaliseerde generatie. Specifiek stellen we een beeldattentiemodule voor om het diffusieproces te conditioneren op de visuele semantiek per patch. We introduceren een op aandacht gebaseerd objectmasker dat vrijwel zonder extra kosten uit de attentiemodule komt. Daarnaast ontwerpen we een eenvoudige regularisatie op basis van de intrinsieke eigenschappen van tekst-beeld-attentiekaarten om de veelvoorkomende degradatie door overfitting te verminderen. In tegenstelling tot veel bestaande modellen, past onze methode geen parameters van het oorspronkelijke diffusiemodel aan. Dit maakt een flexibelere en overdraagbaare modelimplementatie mogelijk. Met slechts een lichte parameter training (~6% van de diffusie U-Net), bereikt onze methode vergelijkbare of zelfs betere prestaties dan alle state-of-the-art modellen, zowel kwalitatief als kwantitatief.

English

Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.

ViCo: Detailgetrouwe visuele conditionering voor gepersonaliseerde tekst-naar-beeldgeneratie

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

Samenvatting

Support