Het Ontwerpen van een Betere Asymmetrische VQGAN voor StableDiffusion

Samenvatting

StableDiffusion is een revolutionaire tekst-naar-beeldgenerator die opschudding veroorzaakt in de wereld van beeldgeneratie en -bewerking. In tegenstelling tot traditionele methoden die een diffusiemodel leren in de pixelruimte, leert StableDiffusion een diffusiemodel in de latente ruimte via een VQGAN, wat zowel efficiëntie als kwaliteit waarborgt. Het ondersteunt niet alleen beeldgeneratietaken, maar maakt ook beeldbewerking mogelijk voor echte afbeeldingen, zoals beeldinpainting en lokale bewerking. We hebben echter geobserveerd dat de standaard VQGAN die in StableDiffusion wordt gebruikt, leidt tot aanzienlijk informatieverlies, wat vervormingsartefacten veroorzaakt, zelfs in niet-bewerkte beeldregio's. Daarom stellen we een nieuwe asymmetrische VQGAN voor met twee eenvoudige ontwerpen. Ten eerste bevat de decoder, naast de invoer van de encoder, een conditionele tak die informatie integreert van taakspecifieke priors, zoals de niet-gemaskerde beeldregio bij inpainting. Ten tweede is de decoder veel zwaarder dan de encoder, wat een gedetailleerdere reconstructie mogelijk maakt terwijl de totale inferentiekosten slechts licht toenemen. De trainingskosten van onze asymmetrische VQGAN zijn laag, en we hoeven alleen een nieuwe asymmetrische decoder te hertrainen terwijl de standaard VQGAN-encoder en StableDiffusion ongewijzigd blijven. Onze asymmetrische VQGAN kan breed worden toegepast in StableDiffusion-gebaseerde inpainting- en lokale bewerkingsmethoden. Uitgebreide experimenten tonen aan dat het de inpainting- en bewerkingsprestaties aanzienlijk kan verbeteren, terwijl de oorspronkelijke tekst-naar-beeldcapaciteit behouden blijft. De code is beschikbaar op https://github.com/buxiangzhiren/Asymmetric_VQGAN.

English

StableDiffusion is a revolutionary text-to-image generator that is causing a stir in the world of image generation and editing. Unlike traditional methods that learn a diffusion model in pixel space, StableDiffusion learns a diffusion model in the latent space via a VQGAN, ensuring both efficiency and quality. It not only supports image generation tasks, but also enables image editing for real images, such as image inpainting and local editing. However, we have observed that the vanilla VQGAN used in StableDiffusion leads to significant information loss, causing distortion artifacts even in non-edited image regions. To this end, we propose a new asymmetric VQGAN with two simple designs. Firstly, in addition to the input from the encoder, the decoder contains a conditional branch that incorporates information from task-specific priors, such as the unmasked image region in inpainting. Secondly, the decoder is much heavier than the encoder, allowing for more detailed recovery while only slightly increasing the total inference cost. The training cost of our asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and local editing methods. Extensive experiments demonstrate that it can significantly improve the inpainting and editing performance, while maintaining the original text-to-image capability. The code is available at https://github.com/buxiangzhiren/Asymmetric_VQGAN.

Het Ontwerpen van een Betere Asymmetrische VQGAN voor StableDiffusion

Designing a Better Asymmetric VQGAN for StableDiffusion

Samenvatting

Support