HiWave: Geração de Imagens de Alta Resolução sem Treinamento via Amostragem Baseada em Wavelets com Difusão
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
Autores: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Resumo
Modelos de difusão emergiram como a principal abordagem para síntese de imagens, demonstrando excepcional fotorrealismo e diversidade. No entanto, o treinamento de modelos de difusão em altas resoluções permanece computacionalmente proibitivo, e as técnicas existentes de geração zero-shot para sintetizar imagens além das resoluções de treinamento frequentemente produzem artefatos, incluindo duplicação de objetos e incoerência espacial. Neste artigo, introduzimos o HiWave, uma abordagem zero-shot e livre de treinamento que aprimora substancialmente a fidelidade visual e a coerência estrutural na síntese de imagens em ultra-alta resolução utilizando modelos de difusão pré-treinados. Nosso método emprega um pipeline de dois estágios: geração de uma imagem base a partir do modelo pré-treinado, seguida por uma etapa de inversão DDIM baseada em patches e um novo módulo de aprimoramento de detalhes baseado em wavelets. Especificamente, primeiro utilizamos métodos de inversão para derivar vetores de ruído iniciais que preservam a coerência global da imagem base. Posteriormente, durante a amostragem, nosso aprimorador de detalhes no domínio wavelet retém componentes de baixa frequência da imagem base para garantir consistência estrutural, enquanto guia seletivamente componentes de alta frequência para enriquecer detalhes finos e texturas. Avaliações extensivas utilizando o Stable Diffusion XL demonstram que o HiWave mitiga efetivamente os artefatos visuais comuns observados em métodos anteriores, alcançando qualidade perceptual superior. Um estudo com usuários confirmou o desempenho do HiWave, que foi preferido em mais de 80% das comparações em relação à alternativa state-of-the-art, destacando sua eficácia para síntese de imagens de alta qualidade em ultra-alta resolução sem a necessidade de retreinamento ou modificações arquiteturais.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.