ZipIR: Transformador de Difusión de Pirámide Latente para la Restauración de Imágenes de Alta Resolución
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration
April 11, 2025
Autores: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI
Resumen
Los recientes avances en modelos generativos han mejorado significativamente las capacidades de restauración de imágenes, particularmente a través de potentes modelos de difusión que ofrecen una recuperación notable de detalles semánticos y fidelidad local. Sin embargo, la implementación de estos modelos en resoluciones ultra altas enfrenta un compromiso crítico entre calidad y eficiencia debido a las demandas computacionales de los mecanismos de atención de largo alcance. Para abordar esto, presentamos ZipIR, un marco novedoso que mejora la eficiencia, escalabilidad y modelado de largo alcance para la restauración de imágenes de alta resolución. ZipIR emplea una representación latente altamente comprimida que reduce la imagen 32 veces, disminuyendo efectivamente el número de tokens espaciales y permitiendo el uso de modelos de alta capacidad como el Transformer de Difusión (DiT). Con este objetivo, proponemos un diseño de VAE de Pirámide Latente (LP-VAE) que estructura el espacio latente en sub-bandas para facilitar el entrenamiento de difusión. Entrenado en imágenes completas de hasta 2K de resolución, ZipIR supera a los métodos basados en difusión existentes, ofreciendo una velocidad y calidad sin precedentes en la restauración de imágenes de alta resolución a partir de entradas severamente degradadas.
English
Recent progress in generative models has significantly improved image
restoration capabilities, particularly through powerful diffusion models that
offer remarkable recovery of semantic details and local fidelity. However,
deploying these models at ultra-high resolutions faces a critical trade-off
between quality and efficiency due to the computational demands of long-range
attention mechanisms. To address this, we introduce ZipIR, a novel framework
that enhances efficiency, scalability, and long-range modeling for high-res
image restoration. ZipIR employs a highly compressed latent representation that
compresses image 32x, effectively reducing the number of spatial tokens, and
enabling the use of high-capacity models like the Diffusion Transformer (DiT).
Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that
structures the latent space into sub-bands to ease diffusion training. Trained
on full images up to 2K resolution, ZipIR surpasses existing diffusion-based
methods, offering unmatched speed and quality in restoring high-resolution
images from severely degraded inputs.Summary
AI-Generated Summary