HiWave : Génération d'images haute résolution sans entraînement via un échantillonnage de diffusion basé sur les ondelettes
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
Auteurs: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Résumé
Les modèles de diffusion sont devenus l'approche dominante pour la synthèse d'images, démontrant un photoréalisme et une diversité exceptionnels. Cependant, l'entraînement de ces modèles à des résolutions élevées reste prohibitif en termes de calcul, et les techniques existantes de génération zero-shot pour synthétiser des images au-delà des résolutions d'entraînement produisent souvent des artefacts, tels que la duplication d'objets et une incohérence spatiale. Dans cet article, nous présentons HiWave, une approche zero-shot et sans entraînement qui améliore considérablement la fidélité visuelle et la cohérence structurelle dans la synthèse d'images à ultra-haute résolution en utilisant des modèles de diffusion pré-entraînés. Notre méthode repose sur un pipeline en deux étapes : la génération d'une image de base à partir du modèle pré-entraîné, suivie d'une étape d'inversion DDIM par patchs et d'un module novateur d'amélioration des détails basé sur les ondelettes. Plus précisément, nous utilisons d'abord des méthodes d'inversion pour dériver des vecteurs de bruit initiaux qui préservent la cohérence globale à partir de l'image de base. Ensuite, lors de l'échantillonnage, notre module d'amélioration des détails dans le domaine des ondelettes conserve les composantes basse fréquence de l'image de base pour assurer la cohérence structurelle, tout en guidant sélectivement les composantes haute fréquence pour enrichir les détails fins et les textures. Des évaluations approfondies utilisant Stable Diffusion XL montrent que HiWave atténue efficacement les artefacts visuels courants observés dans les méthodes précédentes, atteignant une qualité perceptuelle supérieure. Une étude utilisateur a confirmé les performances de HiWave, qui a été préférée à l'alternative de pointe dans plus de 80 % des comparaisons, soulignant son efficacité pour la synthèse d'images de haute qualité à ultra-haute résolution sans nécessiter de réentraînement ou de modifications architecturales.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.