Hochwertige Bildkompression mit Score-basierten generativen Modellen
High-Fidelity Image Compression with Score-based Generative Models
May 26, 2023
Autoren: Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis
cs.AI
Zusammenfassung
Trotz des enormen Erfolgs von Diffusionsgenerationsmodellen in der Text-zu-Bild-Generierung hat sich die Wiederholung dieses Erfolgs im Bereich der Bildkompression als schwierig erwiesen. In diesem Artikel zeigen wir, dass Diffusion die wahrgenommene Qualität bei einer gegebenen Bitrate erheblich verbessern kann und dabei state-of-the-art Ansätze wie PO-ELIC und HiFiC, gemessen am FID-Score, übertrifft. Dies wird durch einen einfachen, aber theoretisch fundierten zweistufigen Ansatz erreicht, der einen Autoencoder, der auf MSE abzielt, mit einem weiteren score-basierten Decoder kombiniert. Wie wir jedoch zeigen werden, sind Implementierungsdetails entscheidend, und die optimalen Designentscheidungen können sich stark von typischen Text-zu-Bild-Modellen unterscheiden.
English
Despite the tremendous success of diffusion generative models in
text-to-image generation, replicating this success in the domain of image
compression has proven difficult. In this paper, we demonstrate that diffusion
can significantly improve perceptual quality at a given bit-rate, outperforming
state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is
achieved using a simple but theoretically motivated two-stage approach
combining an autoencoder targeting MSE followed by a further score-based
decoder. However, as we will show, implementation details matter and the
optimal design decisions can differ greatly from typical text-to-image models.