Entwurf eines verbesserten asymmetrischen VQGAN für StableDiffusion

papers.abstract

StableDiffusion ist ein revolutionärer Text-zu-Bild-Generator, der in der Welt der Bildgenerierung und -bearbeitung für Aufsehen sorgt. Im Gegensatz zu traditionellen Methoden, die ein Diffusionsmodell im Pixelraum erlernen, lernt StableDiffusion ein Diffusionsmodell im latenten Raum über ein VQGAN, was sowohl Effizienz als auch Qualität sicherstellt. Es unterstützt nicht nur Bildgenerierungsaufgaben, sondern ermöglicht auch die Bearbeitung realer Bilder, wie z. B. Bildinpainting und lokale Bearbeitung. Wir haben jedoch beobachtet, dass das in StableDiffusion verwendete Standard-VQGAN zu erheblichen Informationsverlusten führt, was selbst in nicht bearbeiteten Bildbereichen Verzerrungsartefakte verursacht. Daher schlagen wir ein neues asymmetrisches VQGAN mit zwei einfachen Designs vor. Erstens enthält der Decoder zusätzlich zum Eingang des Encoders einen bedingten Zweig, der Informationen aus aufgabenspezifischen Prioritäten, wie z. B. den nicht maskierten Bildbereich beim Inpainting, einbezieht. Zweitens ist der Decoder deutlich umfangreicher als der Encoder, was eine detailliertere Wiederherstellung ermöglicht, während die Gesamtinferenzkosten nur geringfügig steigen. Die Trainingskosten unseres asymmetrischen VQGAN sind gering, und wir müssen lediglich einen neuen asymmetrischen Decoder neu trainieren, während der Standard-VQGAN-Encoder und StableDiffusion unverändert bleiben. Unser asymmetrisches VQGAN kann weit verbreitet in StableDiffusion-basierten Inpainting- und lokalen Bearbeitungsmethoden eingesetzt werden. Umfangreiche Experimente zeigen, dass es die Inpainting- und Bearbeitungsleistung erheblich verbessern kann, während die ursprüngliche Text-zu-Bild-Fähigkeit erhalten bleibt. Der Code ist unter https://github.com/buxiangzhiren/Asymmetric_VQGAN verfügbar.

English

StableDiffusion is a revolutionary text-to-image generator that is causing a stir in the world of image generation and editing. Unlike traditional methods that learn a diffusion model in pixel space, StableDiffusion learns a diffusion model in the latent space via a VQGAN, ensuring both efficiency and quality. It not only supports image generation tasks, but also enables image editing for real images, such as image inpainting and local editing. However, we have observed that the vanilla VQGAN used in StableDiffusion leads to significant information loss, causing distortion artifacts even in non-edited image regions. To this end, we propose a new asymmetric VQGAN with two simple designs. Firstly, in addition to the input from the encoder, the decoder contains a conditional branch that incorporates information from task-specific priors, such as the unmasked image region in inpainting. Secondly, the decoder is much heavier than the encoder, allowing for more detailed recovery while only slightly increasing the total inference cost. The training cost of our asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and local editing methods. Extensive experiments demonstrate that it can significantly improve the inpainting and editing performance, while maintaining the original text-to-image capability. The code is available at https://github.com/buxiangzhiren/Asymmetric_VQGAN.

Entwurf eines verbesserten asymmetrischen VQGAN für StableDiffusion

Designing a Better Asymmetric VQGAN for StableDiffusion

papers.abstract

Support