ZipIR: Latenter Pyramiden-Diffusionstransformator für die Hochauflösungsbildrestaurierung
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration
April 11, 2025
Autoren: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI
Zusammenfassung
Jüngste Fortschritte bei generativen Modellen haben die Fähigkeiten zur Bildrestaurierung erheblich verbessert, insbesondere durch leistungsstarke Diffusionsmodelle, die eine bemerkenswerte Wiederherstellung semantischer Details und lokaler Genauigkeit bieten. Die Anwendung dieser Modelle bei ultrahohen Auflösungen steht jedoch vor einem kritischen Kompromiss zwischen Qualität und Effizienz, der auf den rechenintensiven Anforderungen von Langstrecken-Aufmerksamkeitsmechanismen beruht. Um dies zu adressieren, stellen wir ZipIR vor, ein neuartiges Framework, das Effizienz, Skalierbarkeit und Langstreckenmodellierung für die Restaurierung hochauflösender Bilder verbessert. ZipIR verwendet eine stark komprimierte latente Darstellung, die das Bild um das 32-fache komprimiert, wodurch die Anzahl der räumlichen Token effektiv reduziert wird und die Verwendung von hochkapazitiven Modellen wie dem Diffusion Transformer (DiT) ermöglicht wird. Zu diesem Zweck schlagen wir ein Latent Pyramid VAE (LP-VAE)-Design vor, das den latenten Raum in Subbänder strukturiert, um das Diffusionstraining zu erleichtern. ZipIR, das auf Vollbildern mit einer Auflösung von bis zu 2K trainiert wurde, übertrifft bestehende diffusionsbasierte Methoden und bietet unübertroffene Geschwindigkeit und Qualität bei der Restaurierung hochauflösender Bilder aus stark degradierten Eingaben.
English
Recent progress in generative models has significantly improved image
restoration capabilities, particularly through powerful diffusion models that
offer remarkable recovery of semantic details and local fidelity. However,
deploying these models at ultra-high resolutions faces a critical trade-off
between quality and efficiency due to the computational demands of long-range
attention mechanisms. To address this, we introduce ZipIR, a novel framework
that enhances efficiency, scalability, and long-range modeling for high-res
image restoration. ZipIR employs a highly compressed latent representation that
compresses image 32x, effectively reducing the number of spatial tokens, and
enabling the use of high-capacity models like the Diffusion Transformer (DiT).
Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that
structures the latent space into sub-bands to ease diffusion training. Trained
on full images up to 2K resolution, ZipIR surpasses existing diffusion-based
methods, offering unmatched speed and quality in restoring high-resolution
images from severely degraded inputs.Summary
AI-Generated Summary