HiWave: Trainingsfreie hochauflösende Bildgenerierung durch wavelet-basiertes Diffusions-Sampling
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
Autoren: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Zusammenfassung
Diffusionsmodelle haben sich als führender Ansatz für die Bildsynthese etabliert und zeigen dabei außergewöhnliche Fotorealismus und Vielfalt. Das Training von Diffusionsmodellen bei hohen Auflösungen bleibt jedoch rechenintensiv, und bestehende Zero-Shot-Generierungstechniken zur Synthese von Bildern jenseits der Trainingsauflösungen erzeugen oft Artefakte wie Objektduplikationen und räumliche Inkohärenz. In diesem Artikel stellen wir HiWave vor, einen trainingsfreien, Zero-Shot-Ansatz, der die visuelle Qualität und strukturelle Kohärenz bei der Synthese von ultrahochauflösenden Bildern mit vortrainierten Diffusionsmodellen erheblich verbessert. Unser Verfahren verwendet eine zweistufige Pipeline: die Generierung eines Basisbildes aus dem vortrainierten Modell, gefolgt von einem patch-basierten DDIM-Inversionsschritt und einem neuartigen, wavelet-basierten Detailverstärker-Modul. Konkret nutzen wir zunächst Inversionsmethoden, um initiale Rauschvektoren abzuleiten, die die globale Kohärenz des Basisbildes bewahren. Anschließend behält unser Detailverstärker im Wavelet-Bereich während des Samplings die niederfrequenten Komponenten des Basisbildes bei, um strukturelle Konsistenz zu gewährleisten, während er selektiv hochfrequente Komponenten anleitet, um feine Details und Texturen zu bereichern. Umfangreiche Auswertungen mit Stable Diffusion XL zeigen, dass HiWave gängige visuelle Artefakte früherer Methoden effektiv reduziert und eine überlegene wahrgenommene Qualität erreicht. Eine Nutzerstudie bestätigte die Leistung von HiWave, das in mehr als 80 % der Vergleiche dem state-of-the-art Alternativansatz vorgezogen wurde, und unterstreicht damit seine Effektivität für hochwertige, ultrahochauflösende Bildsynthese ohne erneutes Training oder architektonische Anpassungen.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.