ChatPaper.aiChatPaper

Diffusion-4K: Síntesis de Imágenes en Ultra Alta Resolución con Modelos de Difusión Latente

Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

March 24, 2025
Autores: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
cs.AI

Resumen

En este artículo, presentamos Diffusion-4K, un marco novedoso para la síntesis directa de imágenes en ultra alta resolución utilizando modelos de difusión de texto a imagen. Los avances principales incluyen: (1) Aesthetic-4K Benchmark: para abordar la ausencia de un conjunto de datos público para la síntesis de imágenes en 4K, construimos Aesthetic-4K, un punto de referencia integral para la generación de imágenes en ultra alta resolución. Curiosamos un conjunto de datos de alta calidad en 4K con imágenes y descripciones cuidadosamente seleccionadas generadas por GPT-4o. Además, introducimos las métricas GLCM Score y Compression Ratio para evaluar detalles finos, combinadas con medidas holísticas como FID, Aesthetics y CLIPScore para una evaluación integral de imágenes en ultra alta resolución. (2) Ajuste fino basado en wavelets: proponemos un enfoque de ajuste fino basado en wavelets para el entrenamiento directo con imágenes fotorrealistas en 4K, aplicable a varios modelos de difusión latente, demostrando su eficacia en la síntesis de imágenes en 4K altamente detalladas. En consecuencia, Diffusion-4K logra un rendimiento impresionante en la síntesis de imágenes de alta calidad y la adherencia a las indicaciones de texto, especialmente cuando se potencia con modelos de difusión modernos a gran escala (por ejemplo, SD3-2B y Flux-12B). Los resultados experimentales extensos de nuestro punto de referencia demuestran la superioridad de Diffusion-4K en la síntesis de imágenes en ultra alta resolución.
English
In this paper, we present Diffusion-4K, a novel framework for direct ultra-high-resolution image synthesis using text-to-image diffusion models. The core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K, a comprehensive benchmark for ultra-high-resolution image generation. We curated a high-quality 4K dataset with carefully selected images and captions generated by GPT-4o. Additionally, we introduce GLCM Score and Compression Ratio metrics to evaluate fine details, combined with holistic measures such as FID, Aesthetics and CLIPScore for a comprehensive assessment of ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a wavelet-based fine-tuning approach for direct training with photorealistic 4K images, applicable to various latent diffusion models, demonstrating its effectiveness in synthesizing highly detailed 4K images. Consequently, Diffusion-4K achieves impressive performance in high-quality image synthesis and text prompt adherence, especially when powered by modern large-scale diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results from our benchmark demonstrate the superiority of Diffusion-4K in ultra-high-resolution image synthesis.
PDF62March 25, 2025