ZipIR: Latente Piramide Diffusie Transformer voor Hoogresolutie Beeldrestauratie
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration
April 11, 2025
Auteurs: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI
Samenvatting
Recente vooruitgang in generatieve modellen heeft de mogelijkheden voor beeldrestauratie aanzienlijk verbeterd, met name door krachtige diffusiemodellen die opmerkelijke herstelprestaties bieden op het gebied van semantische details en lokale nauwkeurigheid. Het inzetten van deze modellen op ultra-hoge resoluties stuit echter op een kritische afweging tussen kwaliteit en efficiëntie vanwege de rekenkundige eisen van aandachtmechanismen voor langeafstandsrelaties. Om dit aan te pakken, introduceren we ZipIR, een nieuw framework dat efficiëntie, schaalbaarheid en modellering van langeafstandsrelaties verbetert voor beeldrestauratie op hoge resolutie. ZipIR maakt gebruik van een sterk gecomprimeerde latente representatie die het beeld 32x comprimeert, waardoor het aantal ruimtelijke tokens effectief wordt verminderd en het gebruik van hoogwaardige modellen zoals de Diffusion Transformer (DiT) mogelijk wordt gemaakt. Om dit te bereiken, stellen we een Latent Pyramid VAE (LP-VAE) ontwerp voor dat de latente ruimte structureert in subbanden om diffusietraining te vergemakkelijken. Getraind op volledige beelden tot 2K-resolutie, overtreft ZipIR bestaande diffusiegebaseerde methoden en biedt het ongeëvenaarde snelheid en kwaliteit bij het herstellen van hoogwaardige beelden uit sterk gedegradeerde invoer.
English
Recent progress in generative models has significantly improved image
restoration capabilities, particularly through powerful diffusion models that
offer remarkable recovery of semantic details and local fidelity. However,
deploying these models at ultra-high resolutions faces a critical trade-off
between quality and efficiency due to the computational demands of long-range
attention mechanisms. To address this, we introduce ZipIR, a novel framework
that enhances efficiency, scalability, and long-range modeling for high-res
image restoration. ZipIR employs a highly compressed latent representation that
compresses image 32x, effectively reducing the number of spatial tokens, and
enabling the use of high-capacity models like the Diffusion Transformer (DiT).
Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that
structures the latent space into sub-bands to ease diffusion training. Trained
on full images up to 2K resolution, ZipIR surpasses existing diffusion-based
methods, offering unmatched speed and quality in restoring high-resolution
images from severely degraded inputs.Summary
AI-Generated Summary