HiWave: Generazione di immagini ad alta risoluzione senza addestramento tramite campionamento basato su wavelet nella diffusione
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
Autori: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Abstract
I modelli di diffusione sono emersi come l'approccio principale per la sintesi di immagini, dimostrando un fotorealismo e una diversità eccezionali. Tuttavia, l'addestramento di modelli di diffusione ad alte risoluzioni rimane computazionalmente proibitivo, e le tecniche esistenti di generazione zero-shot per sintetizzare immagini oltre le risoluzioni di addestramento spesso producono artefatti, inclusa la duplicazione di oggetti e l'incoerenza spaziale. In questo articolo, introduciamo HiWave, un approccio zero-shot senza addestramento che migliora sostanzialmente la fedeltà visiva e la coerenza strutturale nella sintesi di immagini a risoluzione ultra-elevata utilizzando modelli di diffusione pre-addestrati. Il nostro metodo impiega una pipeline in due fasi: la generazione di un'immagine di base dal modello pre-addestrato seguita da un passo di inversione DDIM patch-wise e un nuovo modulo di miglioramento dei dettagli basato sulle wavelet. Nello specifico, utilizziamo prima metodi di inversione per derivare vettori di rumore iniziali che preservano la coerenza globale dall'immagine di base. Successivamente, durante il campionamento, il nostro miglioratore di dettagli nel dominio delle wavelet mantiene le componenti a bassa frequenza dall'immagine di base per garantire la coerenza strutturale, mentre guida selettivamente le componenti ad alta frequenza per arricchire i dettagli e le texture fini. Valutazioni estensive utilizzando Stable Diffusion XL dimostrano che HiWave mitiga efficacemente gli artefatti visivi comuni osservati nei metodi precedenti, raggiungendo una qualità percettiva superiore. Uno studio con utenti ha confermato le prestazioni di HiWave, che è stato preferito rispetto all'alternativa più avanzata in più dell'80% dei confronti, evidenziando la sua efficacia per la sintesi di immagini di alta qualità a risoluzione ultra-elevata senza richiedere ri-addestramento o modifiche architetturali.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.