ChatPaper.aiChatPaper

Conception d'un VQGAN asymétrique amélioré pour StableDiffusion

Designing a Better Asymmetric VQGAN for StableDiffusion

June 7, 2023
papers.authors: Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua
cs.AI

papers.abstract

StableDiffusion est un générateur révolutionnaire de texte à image qui suscite un vif intérêt dans le domaine de la génération et de l'édition d'images. Contrairement aux méthodes traditionnelles qui apprennent un modèle de diffusion dans l'espace des pixels, StableDiffusion apprend un modèle de diffusion dans l'espace latent via un VQGAN, garantissant ainsi à la fois efficacité et qualité. Il ne prend pas seulement en charge les tâches de génération d'images, mais permet également l'édition d'images réelles, telles que la réparation d'images et l'édition locale. Cependant, nous avons observé que le VQGAN classique utilisé dans StableDiffusion entraîne une perte d'information significative, provoquant des artefacts de distorsion même dans les régions d'images non éditées. Pour remédier à cela, nous proposons un nouveau VQGAN asymétrique avec deux conceptions simples. Premièrement, en plus de l'entrée provenant de l'encodeur, le décodeur contient une branche conditionnelle qui intègre des informations provenant de connaissances préalables spécifiques à la tâche, comme la région non masquée de l'image dans la réparation. Deuxièmement, le décodeur est beaucoup plus complexe que l'encodeur, permettant une récupération plus détaillée tout en n'augmentant que légèrement le coût total de l'inférence. Le coût d'entraînement de notre VQGAN asymétrique est faible, et nous n'avons besoin de réentraîner qu'un nouveau décodeur asymétrique tout en conservant l'encodeur VQGAN classique et StableDiffusion inchangés. Notre VQGAN asymétrique peut être largement utilisé dans les méthodes de réparation et d'édition locale basées sur StableDiffusion. Des expériences approfondies démontrent qu'il peut considérablement améliorer les performances de réparation et d'édition, tout en conservant la capacité originale de génération de texte à image. Le code est disponible à l'adresse suivante : https://github.com/buxiangzhiren/Asymmetric_VQGAN.
English
StableDiffusion is a revolutionary text-to-image generator that is causing a stir in the world of image generation and editing. Unlike traditional methods that learn a diffusion model in pixel space, StableDiffusion learns a diffusion model in the latent space via a VQGAN, ensuring both efficiency and quality. It not only supports image generation tasks, but also enables image editing for real images, such as image inpainting and local editing. However, we have observed that the vanilla VQGAN used in StableDiffusion leads to significant information loss, causing distortion artifacts even in non-edited image regions. To this end, we propose a new asymmetric VQGAN with two simple designs. Firstly, in addition to the input from the encoder, the decoder contains a conditional branch that incorporates information from task-specific priors, such as the unmasked image region in inpainting. Secondly, the decoder is much heavier than the encoder, allowing for more detailed recovery while only slightly increasing the total inference cost. The training cost of our asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and local editing methods. Extensive experiments demonstrate that it can significantly improve the inpainting and editing performance, while maintaining the original text-to-image capability. The code is available at https://github.com/buxiangzhiren/Asymmetric_VQGAN.
PDF30December 15, 2024