ZipIR: Трансформер с латентной пирамидальной диффузией для восстановления изображений высокого разрешения
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration
April 11, 2025
Авторы: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI
Аннотация
Последние достижения в области генеративных моделей значительно улучшили возможности восстановления изображений, особенно благодаря мощным диффузионным моделям, которые обеспечивают впечатляющее восстановление семантических деталей и локальной точности. Однако применение этих моделей на сверхвысоких разрешениях сталкивается с критическим компромиссом между качеством и эффективностью из-за вычислительных затрат на механизмы внимания с большим радиусом действия. Для решения этой проблемы мы представляем ZipIR — новую архитектуру, которая повышает эффективность, масштабируемость и моделирование на больших расстояниях для восстановления изображений высокого разрешения. ZipIR использует высоко сжатое латентное представление, которое сжимает изображение в 32 раза, эффективно уменьшая количество пространственных токенов и позволяя использовать высокопроизводительные модели, такие как Diffusion Transformer (DiT). Для достижения этой цели мы предлагаем архитектуру Latent Pyramid VAE (LP-VAE), которая структурирует латентное пространство в поддиапазоны для упрощения обучения диффузии. Обучаясь на полных изображениях с разрешением до 2K, ZipIR превосходит существующие методы на основе диффузии, предлагая непревзойденную скорость и качество восстановления изображений высокого разрешения из сильно деградированных входных данных.
English
Recent progress in generative models has significantly improved image
restoration capabilities, particularly through powerful diffusion models that
offer remarkable recovery of semantic details and local fidelity. However,
deploying these models at ultra-high resolutions faces a critical trade-off
between quality and efficiency due to the computational demands of long-range
attention mechanisms. To address this, we introduce ZipIR, a novel framework
that enhances efficiency, scalability, and long-range modeling for high-res
image restoration. ZipIR employs a highly compressed latent representation that
compresses image 32x, effectively reducing the number of spatial tokens, and
enabling the use of high-capacity models like the Diffusion Transformer (DiT).
Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that
structures the latent space into sub-bands to ease diffusion training. Trained
on full images up to 2K resolution, ZipIR surpasses existing diffusion-based
methods, offering unmatched speed and quality in restoring high-resolution
images from severely degraded inputs.Summary
AI-Generated Summary