HiWave: Generación de imágenes de alta resolución sin entrenamiento mediante muestreo basado en ondículas y difusión
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
Autores: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Resumen
Los modelos de difusión han surgido como el enfoque líder para la síntesis de imágenes, demostrando un fotorrealismo y diversidad excepcionales. Sin embargo, el entrenamiento de modelos de difusión en altas resoluciones sigue siendo computacionalmente prohibitivo, y las técnicas existentes de generación en modo cero para sintetizar imágenes más allá de las resoluciones de entrenamiento a menudo producen artefactos, incluyendo duplicación de objetos e incoherencia espacial. En este artículo, presentamos HiWave, un enfoque en modo cero y sin necesidad de entrenamiento que mejora sustancialmente la fidelidad visual y la coherencia estructural en la síntesis de imágenes de ultra alta resolución utilizando modelos de difusión preentrenados. Nuestro método emplea un pipeline de dos etapas: la generación de una imagen base a partir del modelo preentrenado, seguida de un paso de inversión DDIM por parches y un nuevo módulo potenciador de detalles basado en wavelets. Específicamente, primero utilizamos métodos de inversión para derivar vectores de ruido iniciales que preservan la coherencia global a partir de la imagen base. Posteriormente, durante el muestreo, nuestro potenciador de detalles en el dominio de las wavelets retiene los componentes de baja frecuencia de la imagen base para garantizar la consistencia estructural, mientras guía selectivamente los componentes de alta frecuencia para enriquecer los detalles finos y las texturas. Evaluaciones extensas utilizando Stable Diffusion XL demuestran que HiWave mitiga efectivamente los artefactos visuales comunes observados en métodos anteriores, logrando una calidad perceptual superior. Un estudio de usuario confirmó el rendimiento de HiWave, donde fue preferido sobre la alternativa más avanzada en más del 80% de las comparaciones, destacando su efectividad para la síntesis de imágenes de alta calidad y ultra alta resolución sin requerir reentrenamiento o modificaciones arquitectónicas.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.