Het Ontwerpen van een Betere Asymmetrische VQGAN voor StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion
June 7, 2023
Auteurs: Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua
cs.AI
Samenvatting
StableDiffusion is een revolutionaire tekst-naar-beeldgenerator die opschudding veroorzaakt in de wereld van beeldgeneratie en -bewerking. In tegenstelling tot traditionele methoden die een diffusiemodel leren in de pixelruimte, leert StableDiffusion een diffusiemodel in de latente ruimte via een VQGAN, wat zowel efficiëntie als kwaliteit waarborgt. Het ondersteunt niet alleen beeldgeneratietaken, maar maakt ook beeldbewerking mogelijk voor echte afbeeldingen, zoals beeldinpainting en lokale bewerking. We hebben echter geobserveerd dat de standaard VQGAN die in StableDiffusion wordt gebruikt, leidt tot aanzienlijk informatieverlies, wat vervormingsartefacten veroorzaakt, zelfs in niet-bewerkte beeldregio's. Daarom stellen we een nieuwe asymmetrische VQGAN voor met twee eenvoudige ontwerpen. Ten eerste bevat de decoder, naast de invoer van de encoder, een conditionele tak die informatie integreert van taakspecifieke priors, zoals de niet-gemaskerde beeldregio bij inpainting. Ten tweede is de decoder veel zwaarder dan de encoder, wat een gedetailleerdere reconstructie mogelijk maakt terwijl de totale inferentiekosten slechts licht toenemen. De trainingskosten van onze asymmetrische VQGAN zijn laag, en we hoeven alleen een nieuwe asymmetrische decoder te hertrainen terwijl de standaard VQGAN-encoder en StableDiffusion ongewijzigd blijven. Onze asymmetrische VQGAN kan breed worden toegepast in StableDiffusion-gebaseerde inpainting- en lokale bewerkingsmethoden. Uitgebreide experimenten tonen aan dat het de inpainting- en bewerkingsprestaties aanzienlijk kan verbeteren, terwijl de oorspronkelijke tekst-naar-beeldcapaciteit behouden blijft. De code is beschikbaar op https://github.com/buxiangzhiren/Asymmetric_VQGAN.
English
StableDiffusion is a revolutionary text-to-image generator that is causing a
stir in the world of image generation and editing. Unlike traditional methods
that learn a diffusion model in pixel space, StableDiffusion learns a diffusion
model in the latent space via a VQGAN, ensuring both efficiency and quality. It
not only supports image generation tasks, but also enables image editing for
real images, such as image inpainting and local editing. However, we have
observed that the vanilla VQGAN used in StableDiffusion leads to significant
information loss, causing distortion artifacts even in non-edited image
regions. To this end, we propose a new asymmetric VQGAN with two simple
designs. Firstly, in addition to the input from the encoder, the decoder
contains a conditional branch that incorporates information from task-specific
priors, such as the unmasked image region in inpainting. Secondly, the decoder
is much heavier than the encoder, allowing for more detailed recovery while
only slightly increasing the total inference cost. The training cost of our
asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder
while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our
asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and
local editing methods. Extensive experiments demonstrate that it can
significantly improve the inpainting and editing performance, while maintaining
the original text-to-image capability. The code is available at
https://github.com/buxiangzhiren/Asymmetric_VQGAN.