HiWave: Generazione di immagini ad alta risoluzione senza addestramento tramite campionamento basato su wavelet nella diffusione

Abstract

I modelli di diffusione sono emersi come l'approccio principale per la sintesi di immagini, dimostrando un fotorealismo e una diversità eccezionali. Tuttavia, l'addestramento di modelli di diffusione ad alte risoluzioni rimane computazionalmente proibitivo, e le tecniche esistenti di generazione zero-shot per sintetizzare immagini oltre le risoluzioni di addestramento spesso producono artefatti, inclusa la duplicazione di oggetti e l'incoerenza spaziale. In questo articolo, introduciamo HiWave, un approccio zero-shot senza addestramento che migliora sostanzialmente la fedeltà visiva e la coerenza strutturale nella sintesi di immagini a risoluzione ultra-elevata utilizzando modelli di diffusione pre-addestrati. Il nostro metodo impiega una pipeline in due fasi: la generazione di un'immagine di base dal modello pre-addestrato seguita da un passo di inversione DDIM patch-wise e un nuovo modulo di miglioramento dei dettagli basato sulle wavelet. Nello specifico, utilizziamo prima metodi di inversione per derivare vettori di rumore iniziali che preservano la coerenza globale dall'immagine di base. Successivamente, durante il campionamento, il nostro miglioratore di dettagli nel dominio delle wavelet mantiene le componenti a bassa frequenza dall'immagine di base per garantire la coerenza strutturale, mentre guida selettivamente le componenti ad alta frequenza per arricchire i dettagli e le texture fini. Valutazioni estensive utilizzando Stable Diffusion XL dimostrano che HiWave mitiga efficacemente gli artefatti visivi comuni osservati nei metodi precedenti, raggiungendo una qualità percettiva superiore. Uno studio con utenti ha confermato le prestazioni di HiWave, che è stato preferito rispetto all'alternativa più avanzata in più dell'80% dei confronti, evidenziando la sua efficacia per la sintesi di immagini di alta qualità a risoluzione ultra-elevata senza richiedere ri-addestramento o modifiche architetturali.

English

Diffusion models have emerged as the leading approach for image synthesis, demonstrating exceptional photorealism and diversity. However, training diffusion models at high resolutions remains computationally prohibitive, and existing zero-shot generation techniques for synthesizing images beyond training resolutions often produce artifacts, including object duplication and spatial incoherence. In this paper, we introduce HiWave, a training-free, zero-shot approach that substantially enhances visual fidelity and structural coherence in ultra-high-resolution image synthesis using pretrained diffusion models. Our method employs a two-stage pipeline: generating a base image from the pretrained model followed by a patch-wise DDIM inversion step and a novel wavelet-based detail enhancer module. Specifically, we first utilize inversion methods to derive initial noise vectors that preserve global coherence from the base image. Subsequently, during sampling, our wavelet-domain detail enhancer retains low-frequency components from the base image to ensure structural consistency, while selectively guiding high-frequency components to enrich fine details and textures. Extensive evaluations using Stable Diffusion XL demonstrate that HiWave effectively mitigates common visual artifacts seen in prior methods, achieving superior perceptual quality. A user study confirmed HiWave's performance, where it was preferred over the state-of-the-art alternative in more than 80% of comparisons, highlighting its effectiveness for high-quality, ultra-high-resolution image synthesis without requiring retraining or architectural modifications.

HiWave: Generazione di immagini ad alta risoluzione senza addestramento tramite campionamento basato su wavelet nella diffusione

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

Abstract

Support