Разработка улучшенной асимметричной VQGAN для StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion
June 7, 2023
Авторы: Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua
cs.AI
Аннотация
StableDiffusion представляет собой революционный генератор изображений из текста, который вызывает ажиотаж в мире генерации и редактирования изображений. В отличие от традиционных методов, которые обучают диффузионную модель в пространстве пикселей, StableDiffusion обучает диффузионную модель в латентном пространстве с использованием VQGAN, что обеспечивает как эффективность, так и качество. Он не только поддерживает задачи генерации изображений, но также позволяет редактировать реальные изображения, такие как восстановление изображений (inpainting) и локальное редактирование. Однако мы заметили, что стандартный VQGAN, используемый в StableDiffusion, приводит к значительной потере информации, вызывая искажения даже в неотредактированных областях изображения. В связи с этим мы предлагаем новую асимметричную VQGAN с двумя простыми изменениями. Во-первых, помимо входных данных от энкодера, декодер содержит условную ветвь, которая учитывает информацию из априорных данных, специфичных для задачи, например, незамаскированную область изображения при восстановлении. Во-вторых, декодер значительно сложнее энкодера, что позволяет более детально восстанавливать изображения при незначительном увеличении общей стоимости вывода. Обучение нашей асимметричной VQGAN является экономичным, так как требуется переобучить только новый асимметричный декодер, оставляя стандартный энкодер VQGAN и StableDiffusion без изменений. Наша асимметричная VQGAN может широко использоваться в методах восстановления и локального редактирования на основе StableDiffusion. Многочисленные эксперименты показывают, что она значительно улучшает качество восстановления и редактирования, сохраняя при этом исходные возможности генерации изображений из текста. Код доступен по адресу https://github.com/buxiangzhiren/Asymmetric_VQGAN.
English
StableDiffusion is a revolutionary text-to-image generator that is causing a
stir in the world of image generation and editing. Unlike traditional methods
that learn a diffusion model in pixel space, StableDiffusion learns a diffusion
model in the latent space via a VQGAN, ensuring both efficiency and quality. It
not only supports image generation tasks, but also enables image editing for
real images, such as image inpainting and local editing. However, we have
observed that the vanilla VQGAN used in StableDiffusion leads to significant
information loss, causing distortion artifacts even in non-edited image
regions. To this end, we propose a new asymmetric VQGAN with two simple
designs. Firstly, in addition to the input from the encoder, the decoder
contains a conditional branch that incorporates information from task-specific
priors, such as the unmasked image region in inpainting. Secondly, the decoder
is much heavier than the encoder, allowing for more detailed recovery while
only slightly increasing the total inference cost. The training cost of our
asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder
while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our
asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and
local editing methods. Extensive experiments demonstrate that it can
significantly improve the inpainting and editing performance, while maintaining
the original text-to-image capability. The code is available at
https://github.com/buxiangzhiren/Asymmetric_VQGAN.