HiWave: 웨이블릿 기반 확산 샘플링을 통한 학습 없이 고해상도 이미지 생성
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
저자: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
초록
확산 모델(Diffusion Model)은 이미지 합성 분야에서 선도적인 접근법으로 부상하며, 탁월한 사실감과 다양성을 보여주고 있다. 그러나 고해상도에서의 확산 모델 학습은 여전히 계산 비용이 높으며, 학습 해상도를 초과하는 이미지를 합성하기 위한 기존의 제로샷(zero-shot) 생성 기술은 종종 객체 중복 및 공간적 비일관성과 같은 아티팩트를 발생시킨다. 본 논문에서는 사전 학습된 확산 모델을 사용하여 초고해상도 이미지 합성에서 시각적 충실도와 구조적 일관성을 크게 향상시키는 학습이 필요 없는 제로샷 접근법인 HiWave를 소개한다. 우리의 방법은 두 단계의 파이프라인을 사용한다: 사전 학습된 모델에서 기본 이미지를 생성한 후 패치 단위의 DDIM 역변환 단계와 새로운 웨이블릿 기반 디테일 강화 모듈을 적용한다. 구체적으로, 먼저 역변환 방법을 사용하여 기본 이미지에서 전역적 일관성을 보존하는 초기 잡음 벡터를 도출한다. 이후 샘플링 과정에서 우리의 웨이블릿 영역 디테일 강화기는 기본 이미지의 저주파 성분을 유지하여 구조적 일관성을 보장하면서, 고주파 성분을 선택적으로 유도하여 미세한 디테일과 질감을 풍부하게 한다. Stable Diffusion XL을 사용한 광범위한 평가 결과, HiWave는 기존 방법에서 나타나는 일반적인 시각적 아티팩트를 효과적으로 완화하며 우수한 지각적 품질을 달성함을 보여준다. 사용자 연구에서도 HiWave의 성능이 입증되었는데, 80% 이상의 비교에서 최신 대안보다 선호되었으며, 이는 재학습이나 아키텍처 수정 없이도 고품질의 초고해상도 이미지 합성에 효과적임을 강조한다.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.