Compresión de Imágenes de Alta Fidelidad con Modelos Generativos Basados en Puntuaciones
High-Fidelity Image Compression with Score-based Generative Models
May 26, 2023
Autores: Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis
cs.AI
Resumen
A pesar del enorme éxito de los modelos generativos de difusión en la generación de texto a imagen, replicar este éxito en el dominio de la compresión de imágenes ha resultado difícil. En este artículo, demostramos que la difusión puede mejorar significativamente la calidad perceptual a una tasa de bits dada, superando a los enfoques más avanzados PO-ELIC y HiFiC según la métrica FID. Esto se logra mediante un enfoque simple pero teóricamente fundamentado en dos etapas que combina un autocodificador orientado al MSE seguido de un decodificador basado en puntuaciones. Sin embargo, como mostraremos, los detalles de implementación son cruciales y las decisiones de diseño óptimas pueden diferir considerablemente de los modelos típicos de texto a imagen.
English
Despite the tremendous success of diffusion generative models in
text-to-image generation, replicating this success in the domain of image
compression has proven difficult. In this paper, we demonstrate that diffusion
can significantly improve perceptual quality at a given bit-rate, outperforming
state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is
achieved using a simple but theoretically motivated two-stage approach
combining an autoencoder targeting MSE followed by a further score-based
decoder. However, as we will show, implementation details matter and the
optimal design decisions can differ greatly from typical text-to-image models.