Hoogwaardige beeldcompressie met op scores gebaseerde generatieve modellen
High-Fidelity Image Compression with Score-based Generative Models
May 26, 2023
Auteurs: Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis
cs.AI
Samenvatting
Ondanks het enorme succes van diffusiegeneratieve modellen in tekst-naar-beeldgeneratie, is het repliceren van dit succes in het domein van beeldcompressie moeilijk gebleken. In dit artikel tonen we aan dat diffusie de perceptuele kwaliteit bij een gegeven bitrate aanzienlijk kan verbeteren, waarbij state-of-the-art benaderingen zoals PO-ELIC en HiFiC worden overtroffen, zoals gemeten door de FID-score. Dit wordt bereikt met een eenvoudige maar theoretisch onderbouwde tweefasenbenadering die een auto-encoder combineert die gericht is op MSE, gevolgd door een verdere score-gebaseerde decoder. Zoals we zullen aantonen, zijn implementatiedetails echter van cruciaal belang en kunnen de optimale ontwerpbeslissingen sterk verschillen van typische tekst-naar-beeldmodellen.
English
Despite the tremendous success of diffusion generative models in
text-to-image generation, replicating this success in the domain of image
compression has proven difficult. In this paper, we demonstrate that diffusion
can significantly improve perceptual quality at a given bit-rate, outperforming
state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is
achieved using a simple but theoretically motivated two-stage approach
combining an autoencoder targeting MSE followed by a further score-based
decoder. However, as we will show, implementation details matter and the
optimal design decisions can differ greatly from typical text-to-image models.