Compressione di immagini ad alta fedeltà con modelli generativi basati su punteggi
High-Fidelity Image Compression with Score-based Generative Models
May 26, 2023
Autori: Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis
cs.AI
Abstract
Nonostante il notevole successo dei modelli generativi basati su diffusione nella generazione di immagini da testo, replicare questo successo nel campo della compressione delle immagini si è rivelato difficile. In questo articolo, dimostriamo che la diffusione può migliorare significativamente la qualità percettiva a una determinata velocità di trasmissione, superando gli approcci all'avanguardia PO-ELIC e HiFiC misurati tramite il punteggio FID. Questo risultato è ottenuto utilizzando un approccio semplice ma teoricamente motivato in due fasi, che combina un autoencoder mirato all'MSE seguito da un ulteriore decoder basato su punteggio. Tuttavia, come mostreremo, i dettagli implementativi sono cruciali e le decisioni di progettazione ottimali possono differire notevolmente dai tipici modelli di generazione di immagini da testo.
English
Despite the tremendous success of diffusion generative models in
text-to-image generation, replicating this success in the domain of image
compression has proven difficult. In this paper, we demonstrate that diffusion
can significantly improve perceptual quality at a given bit-rate, outperforming
state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is
achieved using a simple but theoretically motivated two-stage approach
combining an autoencoder targeting MSE followed by a further score-based
decoder. However, as we will show, implementation details matter and the
optimal design decisions can differ greatly from typical text-to-image models.