ZipIR: Transformador de Difusão em Pirâmide Latente para Restauração de Imagens de Alta Resolução
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration
April 11, 2025
Autores: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI
Resumo
Os recentes avanços em modelos generativos melhoraram significativamente as capacidades de restauração de imagens, especialmente através de poderosos modelos de difusão que oferecem uma recuperação notável de detalhes semânticos e fidelidade local. No entanto, a implantação desses modelos em resoluções ultra-altas enfrenta uma troca crítica entre qualidade e eficiência devido às demandas computacionais dos mecanismos de atenção de longo alcance. Para resolver isso, apresentamos o ZipIR, uma nova estrutura que aprimora a eficiência, escalabilidade e modelagem de longo alcance para a restauração de imagens de alta resolução. O ZipIR emprega uma representação latente altamente comprimida que reduz a imagem em 32x, diminuindo efetivamente o número de tokens espaciais e permitindo o uso de modelos de alta capacidade, como o Diffusion Transformer (DiT). Para atingir esse objetivo, propomos um design de Latent Pyramid VAE (LP-VAE) que estrutura o espaço latente em sub-bandas para facilitar o treinamento de difusão. Treinado em imagens completas com resolução de até 2K, o ZipIR supera os métodos baseados em difusão existentes, oferecendo velocidade e qualidade incomparáveis na restauração de imagens de alta resolução a partir de entradas severamente degradadas.
English
Recent progress in generative models has significantly improved image
restoration capabilities, particularly through powerful diffusion models that
offer remarkable recovery of semantic details and local fidelity. However,
deploying these models at ultra-high resolutions faces a critical trade-off
between quality and efficiency due to the computational demands of long-range
attention mechanisms. To address this, we introduce ZipIR, a novel framework
that enhances efficiency, scalability, and long-range modeling for high-res
image restoration. ZipIR employs a highly compressed latent representation that
compresses image 32x, effectively reducing the number of spatial tokens, and
enabling the use of high-capacity models like the Diffusion Transformer (DiT).
Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that
structures the latent space into sub-bands to ease diffusion training. Trained
on full images up to 2K resolution, ZipIR surpasses existing diffusion-based
methods, offering unmatched speed and quality in restoring high-resolution
images from severely degraded inputs.Summary
AI-Generated Summary