HiWave: Генерация изображений высокого разрешения без обучения с использованием вейвлет-базированного диффузионного сэмплирования
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
June 25, 2025
Авторы: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI
Аннотация
Диффузионные модели стали ведущим подходом в синтезе изображений, демонстрируя исключительный фотореализм и разнообразие. Однако обучение диффузионных моделей на высоких разрешениях остается вычислительно затратным, а существующие методы генерации изображений за пределами обучающих разрешений в режиме "zero-shot" часто приводят к артефактам, включая дублирование объектов и пространственную несогласованность. В данной статье мы представляем HiWave, подход без обучения в режиме "zero-shot", который значительно улучшает визуальную точность и структурную согласованность при синтезе изображений сверхвысокого разрешения с использованием предобученных диффузионных моделей. Наш метод использует двухэтапный процесс: генерацию базового изображения с помощью предобученной модели, за которым следует пошаговый DDIM-инверсия и новый модуль улучшения деталей на основе вейвлетов. В частности, мы сначала применяем методы инверсии для получения начальных векторов шума, сохраняющих глобальную согласованность из базового изображения. Затем, в процессе сэмплирования, наш модуль улучшения деталей в вейвлет-области сохраняет низкочастотные компоненты базового изображения для обеспечения структурной согласованности, избирательно направляя высокочастотные компоненты для обогащения мелких деталей и текстур. Обширные оценки с использованием Stable Diffusion XL показывают, что HiWave эффективно устраняет распространенные визуальные артефакты, наблюдаемые в предыдущих методах, достигая превосходного воспринимаемого качества. Пользовательское исследование подтвердило производительность HiWave, где он был предпочтен перед современной альтернативой в более чем 80% сравнений, подчеркивая его эффективность для высококачественного синтеза изображений сверхвысокого разрешения без необходимости переобучения или модификации архитектуры.
English
Diffusion models have emerged as the leading approach for image synthesis,
demonstrating exceptional photorealism and diversity. However, training
diffusion models at high resolutions remains computationally prohibitive, and
existing zero-shot generation techniques for synthesizing images beyond
training resolutions often produce artifacts, including object duplication and
spatial incoherence. In this paper, we introduce HiWave, a training-free,
zero-shot approach that substantially enhances visual fidelity and structural
coherence in ultra-high-resolution image synthesis using pretrained diffusion
models. Our method employs a two-stage pipeline: generating a base image from
the pretrained model followed by a patch-wise DDIM inversion step and a novel
wavelet-based detail enhancer module. Specifically, we first utilize inversion
methods to derive initial noise vectors that preserve global coherence from the
base image. Subsequently, during sampling, our wavelet-domain detail enhancer
retains low-frequency components from the base image to ensure structural
consistency, while selectively guiding high-frequency components to enrich fine
details and textures. Extensive evaluations using Stable Diffusion XL
demonstrate that HiWave effectively mitigates common visual artifacts seen in
prior methods, achieving superior perceptual quality. A user study confirmed
HiWave's performance, where it was preferred over the state-of-the-art
alternative in more than 80% of comparisons, highlighting its effectiveness for
high-quality, ultra-high-resolution image synthesis without requiring
retraining or architectural modifications.