HiWave: Training-vrije generatie van hoogresolutiebeelden via wavelet-gebaseerde diffusiebemonstering
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
Auteurs: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Samenvatting
Diffusiemodellen zijn naar voren gekomen als de toonaangevende aanpak voor beeldgeneratie, waarbij ze uitzonderlijke fotorealistische kwaliteit en diversiteit demonstreren. Het trainen van diffusiemodellen op hoge resoluties blijft echter computationeel zeer kostbaar, en bestaande zero-shot generatietechnieken voor het synthetiseren van beelden buiten de trainingsresoluties produceren vaak artefacten, zoals objectduplicatie en ruimtelijke incoherentie. In dit artikel introduceren we HiWave, een trainingsvrije, zero-shot aanpak die de visuele kwaliteit en structurele coherentie aanzienlijk verbetert bij de synthese van ultra-hoge-resolutiebeelden met behulp van voorgetrainde diffusiemodellen. Onze methode maakt gebruik van een tweestappenpijplijn: het genereren van een basisbeeld vanuit het voorgetrainde model, gevolgd door een patchgewijze DDIM-inversiestap en een nieuwe wavelet-gebaseerde detailversterkingsmodule. Specifiek gebruiken we eerst inversiemethoden om initiële ruisvectoren af te leiden die de globale coherentie van het basisbeeld behouden. Vervolgens behoudt onze wavelet-domein detailversterker tijdens de sampling de lage-frequentiecomponenten van het basisbeeld om structurele consistentie te waarborgen, terwijl selectief hoogfrequente componenten worden gestuurd om fijne details en texturen te verrijken. Uitgebreide evaluaties met Stable Diffusion XL tonen aan dat HiWave effectief veelvoorkomende visuele artefacten van eerdere methoden vermindert en superieure perceptuele kwaliteit bereikt. Een gebruikersstudie bevestigde de prestaties van HiWave, waarbij het in meer dan 80% van de vergelijkingen de voorkeur kreeg boven de state-of-the-art alternatieve methode, wat de effectiviteit ervan benadrukt voor hoogwaardige, ultra-hoge-resolutie beeldgeneratie zonder hertraining of architectuurwijzigingen.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.