Diffusion-4K: Síntese de Imagens em Ultra-Alta Resolução com Modelos de Difusão Latente
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
March 24, 2025
Autores: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
cs.AI
Resumo
Neste artigo, apresentamos o Diffusion-4K, uma nova estrutura para a síntese direta de imagens em ultra-alta resolução utilizando modelos de difusão texto-imagem. Os principais avanços incluem: (1) Benchmark Aesthetic-4K: para suprir a ausência de um conjunto de dados publicamente disponível para síntese de imagens em 4K, construímos o Aesthetic-4K, um benchmark abrangente para geração de imagens em ultra-alta resolução. Curamos um conjunto de dados de alta qualidade em 4K com imagens e legendas cuidadosamente selecionadas, geradas pelo GPT-4o. Além disso, introduzimos as métricas GLCM Score e Taxa de Compressão para avaliar detalhes finos, combinadas com medidas holísticas como FID, Aesthetics e CLIPScore para uma avaliação abrangente de imagens em ultra-alta resolução. (2) Ajuste fino baseado em wavelets: propomos uma abordagem de ajuste fino baseada em wavelets para treinamento direto com imagens fotorealísticas em 4K, aplicável a diversos modelos de difusão latente, demonstrando sua eficácia na síntese de imagens em 4K altamente detalhadas. Consequentemente, o Diffusion-4K alcança um desempenho impressionante na síntese de imagens de alta qualidade e na aderência a prompts de texto, especialmente quando impulsionado por modelos de difusão em larga escala modernos (por exemplo, SD3-2B e Flux-12B). Resultados experimentais extensivos de nosso benchmark demonstram a superioridade do Diffusion-4K na síntese de imagens em ultra-alta resolução.
English
In this paper, we present Diffusion-4K, a novel framework for direct
ultra-high-resolution image synthesis using text-to-image diffusion models. The
core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence
of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K,
a comprehensive benchmark for ultra-high-resolution image generation. We
curated a high-quality 4K dataset with carefully selected images and captions
generated by GPT-4o. Additionally, we introduce GLCM Score and Compression
Ratio metrics to evaluate fine details, combined with holistic measures such as
FID, Aesthetics and CLIPScore for a comprehensive assessment of
ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a
wavelet-based fine-tuning approach for direct training with photorealistic 4K
images, applicable to various latent diffusion models, demonstrating its
effectiveness in synthesizing highly detailed 4K images. Consequently,
Diffusion-4K achieves impressive performance in high-quality image synthesis
and text prompt adherence, especially when powered by modern large-scale
diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results
from our benchmark demonstrate the superiority of Diffusion-4K in
ultra-high-resolution image synthesis.Summary
AI-Generated Summary