Compressão de Imagens de Alta Fidelidade com Modelos Generativos Baseados em Pontuação
High-Fidelity Image Compression with Score-based Generative Models
May 26, 2023
Autores: Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis
cs.AI
Resumo
Apesar do tremendo sucesso dos modelos generativos de difusão na geração de texto para imagem, replicar esse sucesso no domínio da compressão de imagens tem se mostrado difícil. Neste artigo, demonstramos que a difusão pode melhorar significativamente a qualidade perceptual em uma determinada taxa de bits, superando as abordagens state-of-the-art PO-ELIC e HiFiC, conforme medido pelo score FID. Isso é alcançado usando uma abordagem simples, mas teoricamente motivada, em dois estágios, que combina um autoencoder direcionado ao MSE seguido por um decodificador adicional baseado em scores. No entanto, como mostraremos, os detalhes de implementação são importantes, e as decisões de design ideais podem diferir bastante dos modelos típicos de texto para imagem.
English
Despite the tremendous success of diffusion generative models in
text-to-image generation, replicating this success in the domain of image
compression has proven difficult. In this paper, we demonstrate that diffusion
can significantly improve perceptual quality at a given bit-rate, outperforming
state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is
achieved using a simple but theoretically motivated two-stage approach
combining an autoencoder targeting MSE followed by a further score-based
decoder. However, as we will show, implementation details matter and the
optimal design decisions can differ greatly from typical text-to-image models.