ChatPaper.aiChatPaper

ZipIR : Transformateur de diffusion pyramidale latente pour la restauration d'images haute résolution

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

April 11, 2025
Auteurs: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI

Résumé

Les récents progrès des modèles génératifs ont considérablement amélioré les capacités de restauration d'images, en particulier grâce aux puissants modèles de diffusion qui offrent une récupération remarquable des détails sémantiques et de la fidélité locale. Cependant, le déploiement de ces modèles à des résolutions ultra-élevées se heurte à un compromis critique entre qualité et efficacité en raison des exigences computationnelles des mécanismes d'attention à longue portée. Pour résoudre ce problème, nous introduisons ZipIR, un nouveau cadre qui améliore l'efficacité, la scalabilité et la modélisation à longue portée pour la restauration d'images haute résolution. ZipIR utilise une représentation latente hautement compressée qui réduit l'image d'un facteur 32, diminuant ainsi le nombre de tokens spatiaux et permettant l'utilisation de modèles à haute capacité comme le Transformer de Diffusion (DiT). Pour atteindre cet objectif, nous proposons une conception de VAE à Pyramide Latente (LP-VAE) qui structure l'espace latent en sous-bandes pour faciliter l'entraînement de la diffusion. Entraîné sur des images complètes jusqu'à une résolution de 2K, ZipIR surpasse les méthodes existantes basées sur la diffusion, offrant une vitesse et une qualité inégalées pour restaurer des images haute résolution à partir d'entrées fortement dégradées.
English
Recent progress in generative models has significantly improved image restoration capabilities, particularly through powerful diffusion models that offer remarkable recovery of semantic details and local fidelity. However, deploying these models at ultra-high resolutions faces a critical trade-off between quality and efficiency due to the computational demands of long-range attention mechanisms. To address this, we introduce ZipIR, a novel framework that enhances efficiency, scalability, and long-range modeling for high-res image restoration. ZipIR employs a highly compressed latent representation that compresses image 32x, effectively reducing the number of spatial tokens, and enabling the use of high-capacity models like the Diffusion Transformer (DiT). Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that structures the latent space into sub-bands to ease diffusion training. Trained on full images up to 2K resolution, ZipIR surpasses existing diffusion-based methods, offering unmatched speed and quality in restoring high-resolution images from severely degraded inputs.

Summary

AI-Generated Summary

PDF182April 14, 2025