Entwurf eines verbesserten asymmetrischen VQGAN für StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion
June 7, 2023
papers.authors: Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua
cs.AI
papers.abstract
StableDiffusion ist ein revolutionärer Text-zu-Bild-Generator, der in der Welt der Bildgenerierung und -bearbeitung für Aufsehen sorgt. Im Gegensatz zu traditionellen Methoden, die ein Diffusionsmodell im Pixelraum erlernen, lernt StableDiffusion ein Diffusionsmodell im latenten Raum über ein VQGAN, was sowohl Effizienz als auch Qualität sicherstellt. Es unterstützt nicht nur Bildgenerierungsaufgaben, sondern ermöglicht auch die Bearbeitung realer Bilder, wie z. B. Bildinpainting und lokale Bearbeitung. Wir haben jedoch beobachtet, dass das in StableDiffusion verwendete Standard-VQGAN zu erheblichen Informationsverlusten führt, was selbst in nicht bearbeiteten Bildbereichen Verzerrungsartefakte verursacht. Daher schlagen wir ein neues asymmetrisches VQGAN mit zwei einfachen Designs vor. Erstens enthält der Decoder zusätzlich zum Eingang des Encoders einen bedingten Zweig, der Informationen aus aufgabenspezifischen Prioritäten, wie z. B. den nicht maskierten Bildbereich beim Inpainting, einbezieht. Zweitens ist der Decoder deutlich umfangreicher als der Encoder, was eine detailliertere Wiederherstellung ermöglicht, während die Gesamtinferenzkosten nur geringfügig steigen. Die Trainingskosten unseres asymmetrischen VQGAN sind gering, und wir müssen lediglich einen neuen asymmetrischen Decoder neu trainieren, während der Standard-VQGAN-Encoder und StableDiffusion unverändert bleiben. Unser asymmetrisches VQGAN kann weit verbreitet in StableDiffusion-basierten Inpainting- und lokalen Bearbeitungsmethoden eingesetzt werden. Umfangreiche Experimente zeigen, dass es die Inpainting- und Bearbeitungsleistung erheblich verbessern kann, während die ursprüngliche Text-zu-Bild-Fähigkeit erhalten bleibt. Der Code ist unter https://github.com/buxiangzhiren/Asymmetric_VQGAN verfügbar.
English
StableDiffusion is a revolutionary text-to-image generator that is causing a
stir in the world of image generation and editing. Unlike traditional methods
that learn a diffusion model in pixel space, StableDiffusion learns a diffusion
model in the latent space via a VQGAN, ensuring both efficiency and quality. It
not only supports image generation tasks, but also enables image editing for
real images, such as image inpainting and local editing. However, we have
observed that the vanilla VQGAN used in StableDiffusion leads to significant
information loss, causing distortion artifacts even in non-edited image
regions. To this end, we propose a new asymmetric VQGAN with two simple
designs. Firstly, in addition to the input from the encoder, the decoder
contains a conditional branch that incorporates information from task-specific
priors, such as the unmasked image region in inpainting. Secondly, the decoder
is much heavier than the encoder, allowing for more detailed recovery while
only slightly increasing the total inference cost. The training cost of our
asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder
while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our
asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and
local editing methods. Extensive experiments demonstrate that it can
significantly improve the inpainting and editing performance, while maintaining
the original text-to-image capability. The code is available at
https://github.com/buxiangzhiren/Asymmetric_VQGAN.