ChatPaper.aiChatPaper

HiWave: Training-vrije generatie van hoogresolutiebeelden via wavelet-gebaseerde diffusiebemonstering

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

June 25, 2025
Auteurs: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
cs.AI

Samenvatting

Diffusiemodellen zijn naar voren gekomen als de toonaangevende aanpak voor beeldgeneratie, waarbij ze uitzonderlijke fotorealistische kwaliteit en diversiteit demonstreren. Het trainen van diffusiemodellen op hoge resoluties blijft echter computationeel zeer kostbaar, en bestaande zero-shot generatietechnieken voor het synthetiseren van beelden buiten de trainingsresoluties produceren vaak artefacten, zoals objectduplicatie en ruimtelijke incoherentie. In dit artikel introduceren we HiWave, een trainingsvrije, zero-shot aanpak die de visuele kwaliteit en structurele coherentie aanzienlijk verbetert bij de synthese van ultra-hoge-resolutiebeelden met behulp van voorgetrainde diffusiemodellen. Onze methode maakt gebruik van een tweestappenpijplijn: het genereren van een basisbeeld vanuit het voorgetrainde model, gevolgd door een patchgewijze DDIM-inversiestap en een nieuwe wavelet-gebaseerde detailversterkingsmodule. Specifiek gebruiken we eerst inversiemethoden om initiële ruisvectoren af te leiden die de globale coherentie van het basisbeeld behouden. Vervolgens behoudt onze wavelet-domein detailversterker tijdens de sampling de lage-frequentiecomponenten van het basisbeeld om structurele consistentie te waarborgen, terwijl selectief hoogfrequente componenten worden gestuurd om fijne details en texturen te verrijken. Uitgebreide evaluaties met Stable Diffusion XL tonen aan dat HiWave effectief veelvoorkomende visuele artefacten van eerdere methoden vermindert en superieure perceptuele kwaliteit bereikt. Een gebruikersstudie bevestigde de prestaties van HiWave, waarbij het in meer dan 80% van de vergelijkingen de voorkeur kreeg boven de state-of-the-art alternatieve methode, wat de effectiviteit ervan benadrukt voor hoogwaardige, ultra-hoge-resolutie beeldgeneratie zonder hertraining of architectuurwijzigingen.
English
Diffusion models have emerged as the leading approach for image synthesis, demonstrating exceptional photorealism and diversity. However, training diffusion models at high resolutions remains computationally prohibitive, and existing zero-shot generation techniques for synthesizing images beyond training resolutions often produce artifacts, including object duplication and spatial incoherence. In this paper, we introduce HiWave, a training-free, zero-shot approach that substantially enhances visual fidelity and structural coherence in ultra-high-resolution image synthesis using pretrained diffusion models. Our method employs a two-stage pipeline: generating a base image from the pretrained model followed by a patch-wise DDIM inversion step and a novel wavelet-based detail enhancer module. Specifically, we first utilize inversion methods to derive initial noise vectors that preserve global coherence from the base image. Subsequently, during sampling, our wavelet-domain detail enhancer retains low-frequency components from the base image to ensure structural consistency, while selectively guiding high-frequency components to enrich fine details and textures. Extensive evaluations using Stable Diffusion XL demonstrate that HiWave effectively mitigates common visual artifacts seen in prior methods, achieving superior perceptual quality. A user study confirmed HiWave's performance, where it was preferred over the state-of-the-art alternative in more than 80% of comparisons, highlighting its effectiveness for high-quality, ultra-high-resolution image synthesis without requiring retraining or architectural modifications.
PDF176June 26, 2025