ViCo: Detailgetrouwe visuele conditionering voor gepersonaliseerde tekst-naar-beeldgeneratie
ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation
June 1, 2023
Auteurs: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
cs.AI
Samenvatting
Gepersonaliseerde tekst-naar-beeldgeneratie met behulp van diffusiemodellen is recent voorgesteld en heeft veel aandacht getrokken. Gegeven een handvol afbeeldingen die een nieuw concept bevatten (bijvoorbeeld een uniek speeltje), streven we ernaar om het generatieve model af te stemmen om fijne visuele details van het nieuwe concept vast te leggen en fotorealistische afbeeldingen te genereren die voldoen aan een tekstconditie. We presenteren een plug-in methode, genaamd ViCo, voor snelle en lichtgewicht gepersonaliseerde generatie. Specifiek stellen we een beeldattentiemodule voor om het diffusieproces te conditioneren op de visuele semantiek per patch. We introduceren een op aandacht gebaseerd objectmasker dat vrijwel zonder extra kosten uit de attentiemodule komt. Daarnaast ontwerpen we een eenvoudige regularisatie op basis van de intrinsieke eigenschappen van tekst-beeld-attentiekaarten om de veelvoorkomende degradatie door overfitting te verminderen. In tegenstelling tot veel bestaande modellen, past onze methode geen parameters van het oorspronkelijke diffusiemodel aan. Dit maakt een flexibelere en overdraagbaare modelimplementatie mogelijk. Met slechts een lichte parameter training (~6% van de diffusie U-Net), bereikt onze methode vergelijkbare of zelfs betere prestaties dan alle state-of-the-art modellen, zowel kwalitatief als kwantitatief.
English
Personalized text-to-image generation using diffusion models has recently
been proposed and attracted lots of attention. Given a handful of images
containing a novel concept (e.g., a unique toy), we aim to tune the generative
model to capture fine visual details of the novel concept and generate
photorealistic images following a text condition. We present a plug-in method,
named ViCo, for fast and lightweight personalized generation. Specifically, we
propose an image attention module to condition the diffusion process on the
patch-wise visual semantics. We introduce an attention-based object mask that
comes almost at no cost from the attention module. In addition, we design a
simple regularization based on the intrinsic properties of text-image attention
maps to alleviate the common overfitting degradation. Unlike many existing
models, our method does not finetune any parameters of the original diffusion
model. This allows more flexible and transferable model deployment. With only
light parameter training (~6% of the diffusion U-Net), our method achieves
comparable or even better performance than all state-of-the-art models both
qualitatively and quantitatively.