ChatPaper.aiChatPaper

ZipIR: 고해상도 이미지 복원을 위한 잠재 피라미드 확산 트랜스포머

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

April 11, 2025
저자: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI

초록

최근 생성 모델의 발전은 특히 시맨틱 디테일과 지역적 충실도의 놀라운 복원을 제공하는 강력한 확산 모델을 통해 이미지 복원 능력을 크게 향상시켰습니다. 그러나 초고해상도에서 이러한 모델을 배포할 때는 장거리 어텐션 메커니즘의 계산적 요구로 인해 품질과 효율성 사이의 중요한 트레이드오프에 직면하게 됩니다. 이를 해결하기 위해, 우리는 고해상도 이미지 복원을 위한 효율성, 확장성 및 장거리 모델링을 강화한 새로운 프레임워크인 ZipIR을 소개합니다. ZipIR은 이미지를 32배 압축하는 고도로 압축된 잠재 표현을 사용하여 공간 토큰의 수를 효과적으로 줄이고, Diffusion Transformer (DiT)와 같은 고용량 모델의 사용을 가능하게 합니다. 이를 위해, 우리는 잠재 공간을 서브 밴드로 구조화하여 확산 훈련을 용이하게 하는 Latent Pyramid VAE (LP-VAE) 설계를 제안합니다. 2K 해상도의 전체 이미지에 대해 훈련된 ZipIR은 기존의 확산 기반 방법을 능가하며, 심각하게 저하된 입력에서 고해상도 이미지를 복원하는 데 있어서 탁월한 속도와 품질을 제공합니다.
English
Recent progress in generative models has significantly improved image restoration capabilities, particularly through powerful diffusion models that offer remarkable recovery of semantic details and local fidelity. However, deploying these models at ultra-high resolutions faces a critical trade-off between quality and efficiency due to the computational demands of long-range attention mechanisms. To address this, we introduce ZipIR, a novel framework that enhances efficiency, scalability, and long-range modeling for high-res image restoration. ZipIR employs a highly compressed latent representation that compresses image 32x, effectively reducing the number of spatial tokens, and enabling the use of high-capacity models like the Diffusion Transformer (DiT). Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that structures the latent space into sub-bands to ease diffusion training. Trained on full images up to 2K resolution, ZipIR surpasses existing diffusion-based methods, offering unmatched speed and quality in restoring high-resolution images from severely degraded inputs.

Summary

AI-Generated Summary

PDF182April 14, 2025