ZipIR: Трансформер с латентной пирамидальной диффузией для восстановления изображений высокого разрешения

Аннотация

Последние достижения в области генеративных моделей значительно улучшили возможности восстановления изображений, особенно благодаря мощным диффузионным моделям, которые обеспечивают впечатляющее восстановление семантических деталей и локальной точности. Однако применение этих моделей на сверхвысоких разрешениях сталкивается с критическим компромиссом между качеством и эффективностью из-за вычислительных затрат на механизмы внимания с большим радиусом действия. Для решения этой проблемы мы представляем ZipIR — новую архитектуру, которая повышает эффективность, масштабируемость и моделирование на больших расстояниях для восстановления изображений высокого разрешения. ZipIR использует высоко сжатое латентное представление, которое сжимает изображение в 32 раза, эффективно уменьшая количество пространственных токенов и позволяя использовать высокопроизводительные модели, такие как Diffusion Transformer (DiT). Для достижения этой цели мы предлагаем архитектуру Latent Pyramid VAE (LP-VAE), которая структурирует латентное пространство в поддиапазоны для упрощения обучения диффузии. Обучаясь на полных изображениях с разрешением до 2K, ZipIR превосходит существующие методы на основе диффузии, предлагая непревзойденную скорость и качество восстановления изображений высокого разрешения из сильно деградированных входных данных.

English

Recent progress in generative models has significantly improved image restoration capabilities, particularly through powerful diffusion models that offer remarkable recovery of semantic details and local fidelity. However, deploying these models at ultra-high resolutions faces a critical trade-off between quality and efficiency due to the computational demands of long-range attention mechanisms. To address this, we introduce ZipIR, a novel framework that enhances efficiency, scalability, and long-range modeling for high-res image restoration. ZipIR employs a highly compressed latent representation that compresses image 32x, effectively reducing the number of spatial tokens, and enabling the use of high-capacity models like the Diffusion Transformer (DiT). Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that structures the latent space into sub-bands to ease diffusion training. Trained on full images up to 2K resolution, ZipIR surpasses existing diffusion-based methods, offering unmatched speed and quality in restoring high-resolution images from severely degraded inputs.

ZipIR: Трансформер с латентной пирамидальной диффузией для восстановления изображений высокого разрешения

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Аннотация

Support