ChatPaper.aiChatPaper

HiWave: Генерация изображений высокого разрешения без обучения с использованием вейвлет-базированного диффузионного сэмплирования

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

June 25, 2025
Авторы: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI

Аннотация

Диффузионные модели стали ведущим подходом в синтезе изображений, демонстрируя исключительный фотореализм и разнообразие. Однако обучение диффузионных моделей на высоких разрешениях остается вычислительно затратным, а существующие методы генерации изображений за пределами обучающих разрешений в режиме "zero-shot" часто приводят к артефактам, включая дублирование объектов и пространственную несогласованность. В данной статье мы представляем HiWave, подход без обучения в режиме "zero-shot", который значительно улучшает визуальную точность и структурную согласованность при синтезе изображений сверхвысокого разрешения с использованием предобученных диффузионных моделей. Наш метод использует двухэтапный процесс: генерацию базового изображения с помощью предобученной модели, за которым следует пошаговый DDIM-инверсия и новый модуль улучшения деталей на основе вейвлетов. В частности, мы сначала применяем методы инверсии для получения начальных векторов шума, сохраняющих глобальную согласованность из базового изображения. Затем, в процессе сэмплирования, наш модуль улучшения деталей в вейвлет-области сохраняет низкочастотные компоненты базового изображения для обеспечения структурной согласованности, избирательно направляя высокочастотные компоненты для обогащения мелких деталей и текстур. Обширные оценки с использованием Stable Diffusion XL показывают, что HiWave эффективно устраняет распространенные визуальные артефакты, наблюдаемые в предыдущих методах, достигая превосходного воспринимаемого качества. Пользовательское исследование подтвердило производительность HiWave, где он был предпочтен перед современной альтернативой в более чем 80% сравнений, подчеркивая его эффективность для высококачественного синтеза изображений сверхвысокого разрешения без необходимости переобучения или модификации архитектуры.
English
Diffusion models have emerged as the leading approach for image synthesis, demonstrating exceptional photorealism and diversity. However, training diffusion models at high resolutions remains computationally prohibitive, and existing zero-shot generation techniques for synthesizing images beyond training resolutions often produce artifacts, including object duplication and spatial incoherence. In this paper, we introduce HiWave, a training-free, zero-shot approach that substantially enhances visual fidelity and structural coherence in ultra-high-resolution image synthesis using pretrained diffusion models. Our method employs a two-stage pipeline: generating a base image from the pretrained model followed by a patch-wise DDIM inversion step and a novel wavelet-based detail enhancer module. Specifically, we first utilize inversion methods to derive initial noise vectors that preserve global coherence from the base image. Subsequently, during sampling, our wavelet-domain detail enhancer retains low-frequency components from the base image to ensure structural consistency, while selectively guiding high-frequency components to enrich fine details and textures. Extensive evaluations using Stable Diffusion XL demonstrate that HiWave effectively mitigates common visual artifacts seen in prior methods, achieving superior perceptual quality. A user study confirmed HiWave's performance, where it was preferred over the state-of-the-art alternative in more than 80% of comparisons, highlighting its effectiveness for high-quality, ultra-high-resolution image synthesis without requiring retraining or architectural modifications.
PDF114June 26, 2025