ChatPaper.aiChatPaper

Высококачественное сжатие изображений с использованием генеративных моделей на основе оценок

High-Fidelity Image Compression with Score-based Generative Models

May 26, 2023
Авторы: Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis
cs.AI

Аннотация

Несмотря на огромный успех диффузионных генеративных моделей в задаче генерации изображений по тексту, воспроизведение этого успеха в области сжатия изображений оказалось сложной задачей. В данной работе мы демонстрируем, что диффузия может значительно улучшить воспринимаемое качество при заданной битовой скорости, превосходя современные подходы PO-ELIC и HiFiC по показателю FID. Это достигается с помощью простого, но теоретически обоснованного двухэтапного подхода, сочетающего автоэнкодер, оптимизированный по MSE, с последующим декодером на основе оценки. Однако, как мы покажем, детали реализации имеют значение, и оптимальные проектные решения могут существенно отличаться от типичных моделей для генерации изображений по тексту.
English
Despite the tremendous success of diffusion generative models in text-to-image generation, replicating this success in the domain of image compression has proven difficult. In this paper, we demonstrate that diffusion can significantly improve perceptual quality at a given bit-rate, outperforming state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is achieved using a simple but theoretically motivated two-stage approach combining an autoencoder targeting MSE followed by a further score-based decoder. However, as we will show, implementation details matter and the optimal design decisions can differ greatly from typical text-to-image models.
PDF11December 15, 2024