ChatPaper.aiChatPaper

Compression d'images haute fidélité avec des modèles génératifs basés sur les scores

High-Fidelity Image Compression with Score-based Generative Models

May 26, 2023
Auteurs: Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis
cs.AI

Résumé

Malgré le succès considérable des modèles génératifs à diffusion dans la génération d'images à partir de texte, reproduire ce succès dans le domaine de la compression d'images s'est avéré difficile. Dans cet article, nous démontrons que la diffusion peut significativement améliorer la qualité perceptuelle à un débit donné, surpassant les approches de pointe PO-ELIC et HiFiC mesurées par le score FID. Ce résultat est obtenu grâce à une approche simple mais théoriquement motivée en deux étapes, combinant un autoencodeur ciblant l'erreur quadratique moyenne (MSE) suivi d'un décodeur supplémentaire basé sur les scores. Cependant, comme nous le montrerons, les détails d'implémentation sont cruciaux et les décisions de conception optimales peuvent différer considérablement des modèles typiques de génération d'images à partir de texte.
English
Despite the tremendous success of diffusion generative models in text-to-image generation, replicating this success in the domain of image compression has proven difficult. In this paper, we demonstrate that diffusion can significantly improve perceptual quality at a given bit-rate, outperforming state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is achieved using a simple but theoretically motivated two-stage approach combining an autoencoder targeting MSE followed by a further score-based decoder. However, as we will show, implementation details matter and the optimal design decisions can differ greatly from typical text-to-image models.
PDF11December 15, 2024