ChatPaper.aiChatPaper

Diffusion-4K: Ultra-Hoge-Resolutie Beeldsynthese met Latente Diffusiemodellen

Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

March 24, 2025
Auteurs: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
cs.AI

Samenvatting

In dit artikel presenteren we Diffusion-4K, een nieuw framework voor directe synthese van ultra-hogeresolutiebeelden met behulp van tekst-naar-beeld diffusiemodellen. De kernverbeteringen omvatten: (1) Aesthetic-4K Benchmark: om het ontbreken van een publiek beschikbare 4K-beeldsynthese dataset aan te pakken, hebben we Aesthetic-4K geconstrueerd, een uitgebreide benchmark voor het genereren van ultra-hogeresolutiebeelden. We hebben een hoogwaardige 4K-dataset samengesteld met zorgvuldig geselecteerde afbeeldingen en bijschriften gegenereerd door GPT-4o. Daarnaast introduceren we de GLCM Score en Compressie Ratio metriek om fijne details te evalueren, gecombineerd met holistische maatstaven zoals FID, Aesthetics en CLIPScore voor een uitgebreide beoordeling van ultra-hogeresolutiebeelden. (2) Wavelet-gebaseerde Fine-tuning: we stellen een wavelet-gebaseerde fine-tuning benadering voor voor directe training met fotorealistische 4K-beelden, toepasbaar op verschillende latente diffusiemodellen, waarbij de effectiviteit ervan wordt aangetoond in het synthetiseren van zeer gedetailleerde 4K-beelden. Als gevolg hiervan behaalt Diffusion-4K indrukwekkende prestaties in hoogwaardige beeldsynthese en het volgen van tekstprompts, vooral wanneer het wordt aangedreven door moderne grootschalige diffusiemodellen (bijv. SD3-2B en Flux-12B). Uitgebreide experimentele resultaten van onze benchmark demonstreren de superioriteit van Diffusion-4K in ultra-hogeresolutiebeeldsynthese.
English
In this paper, we present Diffusion-4K, a novel framework for direct ultra-high-resolution image synthesis using text-to-image diffusion models. The core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K, a comprehensive benchmark for ultra-high-resolution image generation. We curated a high-quality 4K dataset with carefully selected images and captions generated by GPT-4o. Additionally, we introduce GLCM Score and Compression Ratio metrics to evaluate fine details, combined with holistic measures such as FID, Aesthetics and CLIPScore for a comprehensive assessment of ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a wavelet-based fine-tuning approach for direct training with photorealistic 4K images, applicable to various latent diffusion models, demonstrating its effectiveness in synthesizing highly detailed 4K images. Consequently, Diffusion-4K achieves impressive performance in high-quality image synthesis and text prompt adherence, especially when powered by modern large-scale diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results from our benchmark demonstrate the superiority of Diffusion-4K in ultra-high-resolution image synthesis.

Summary

AI-Generated Summary

PDF62March 25, 2025