Projetando um VQGAN Assimétrico Melhor para StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion
June 7, 2023
Autores: Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua
cs.AI
Resumo
O StableDiffusion é um gerador revolucionário de texto para imagem que está causando impacto no mundo da geração e edição de imagens. Diferente dos métodos tradicionais que aprendem um modelo de difusão no espaço de pixels, o StableDiffusion aprende um modelo de difusão no espaço latente por meio de um VQGAN, garantindo eficiência e qualidade. Ele não apenas suporta tarefas de geração de imagens, mas também permite a edição de imagens reais, como preenchimento de imagens e edição local. No entanto, observamos que o VQGAN padrão usado no StableDiffusion resulta em uma perda significativa de informação, causando artefatos de distorção mesmo em regiões da imagem não editadas. Para isso, propomos um novo VQGAN assimétrico com dois designs simples. Primeiramente, além da entrada do codificador, o decodificador contém um ramo condicional que incorpora informações de prévias específicas da tarefa, como a região não mascarada da imagem no preenchimento. Em segundo lugar, o decodificador é muito mais robusto que o codificador, permitindo uma recuperação mais detalhada enquanto aumenta apenas ligeiramente o custo total de inferência. O custo de treinamento do nosso VQGAN assimétrico é baixo, e precisamos apenas retreinar um novo decodificador assimétrico, mantendo o codificador VQGAN padrão e o StableDiffusion inalterados. Nosso VQGAN assimétrico pode ser amplamente utilizado em métodos de preenchimento e edição local baseados no StableDiffusion. Experimentos extensivos demonstram que ele pode melhorar significativamente o desempenho de preenchimento e edição, mantendo a capacidade original de texto para imagem. O código está disponível em https://github.com/buxiangzhiren/Asymmetric_VQGAN.
English
StableDiffusion is a revolutionary text-to-image generator that is causing a
stir in the world of image generation and editing. Unlike traditional methods
that learn a diffusion model in pixel space, StableDiffusion learns a diffusion
model in the latent space via a VQGAN, ensuring both efficiency and quality. It
not only supports image generation tasks, but also enables image editing for
real images, such as image inpainting and local editing. However, we have
observed that the vanilla VQGAN used in StableDiffusion leads to significant
information loss, causing distortion artifacts even in non-edited image
regions. To this end, we propose a new asymmetric VQGAN with two simple
designs. Firstly, in addition to the input from the encoder, the decoder
contains a conditional branch that incorporates information from task-specific
priors, such as the unmasked image region in inpainting. Secondly, the decoder
is much heavier than the encoder, allowing for more detailed recovery while
only slightly increasing the total inference cost. The training cost of our
asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder
while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our
asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and
local editing methods. Extensive experiments demonstrate that it can
significantly improve the inpainting and editing performance, while maintaining
the original text-to-image capability. The code is available at
https://github.com/buxiangzhiren/Asymmetric_VQGAN.