ZipIR: Transformador de Difusão em Pirâmide Latente para Restauração de Imagens de Alta Resolução

Resumo

Os recentes avanços em modelos generativos melhoraram significativamente as capacidades de restauração de imagens, especialmente através de poderosos modelos de difusão que oferecem uma recuperação notável de detalhes semânticos e fidelidade local. No entanto, a implantação desses modelos em resoluções ultra-altas enfrenta uma troca crítica entre qualidade e eficiência devido às demandas computacionais dos mecanismos de atenção de longo alcance. Para resolver isso, apresentamos o ZipIR, uma nova estrutura que aprimora a eficiência, escalabilidade e modelagem de longo alcance para a restauração de imagens de alta resolução. O ZipIR emprega uma representação latente altamente comprimida que reduz a imagem em 32x, diminuindo efetivamente o número de tokens espaciais e permitindo o uso de modelos de alta capacidade, como o Diffusion Transformer (DiT). Para atingir esse objetivo, propomos um design de Latent Pyramid VAE (LP-VAE) que estrutura o espaço latente em sub-bandas para facilitar o treinamento de difusão. Treinado em imagens completas com resolução de até 2K, o ZipIR supera os métodos baseados em difusão existentes, oferecendo velocidade e qualidade incomparáveis na restauração de imagens de alta resolução a partir de entradas severamente degradadas.

English

Recent progress in generative models has significantly improved image restoration capabilities, particularly through powerful diffusion models that offer remarkable recovery of semantic details and local fidelity. However, deploying these models at ultra-high resolutions faces a critical trade-off between quality and efficiency due to the computational demands of long-range attention mechanisms. To address this, we introduce ZipIR, a novel framework that enhances efficiency, scalability, and long-range modeling for high-res image restoration. ZipIR employs a highly compressed latent representation that compresses image 32x, effectively reducing the number of spatial tokens, and enabling the use of high-capacity models like the Diffusion Transformer (DiT). Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that structures the latent space into sub-bands to ease diffusion training. Trained on full images up to 2K resolution, ZipIR surpasses existing diffusion-based methods, offering unmatched speed and quality in restoring high-resolution images from severely degraded inputs.

ZipIR: Transformador de Difusão em Pirâmide Latente para Restauração de Imagens de Alta Resolução

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Resumo

Summary

Support

Support