Diffusion-4K : Synthèse d'images en ultra-haute résolution avec des modèles de diffusion latente
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
March 24, 2025
Auteurs: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
cs.AI
Résumé
Dans cet article, nous présentons Diffusion-4K, un nouveau cadre pour la synthèse directe d'images en ultra-haute résolution à l'aide de modèles de diffusion texte-image. Les avancées principales incluent : (1) Le benchmark Aesthetic-4K : pour pallier l'absence d'un ensemble de données publiquement disponible pour la synthèse d'images en 4K, nous avons construit Aesthetic-4K, un benchmark complet pour la génération d'images en ultra-haute résolution. Nous avons constitué un ensemble de données 4K de haute qualité avec des images et des légendes soigneusement sélectionnées, générées par GPT-4o. De plus, nous introduisons les métriques GLCM Score et Compression Ratio pour évaluer les détails fins, combinées à des mesures holistiques telles que FID, Aesthetics et CLIPScore pour une évaluation complète des images en ultra-haute résolution. (2) Le fine-tuning basé sur les ondelettes : nous proposons une approche de fine-tuning basée sur les ondelettes pour l'entraînement direct avec des images photoréalistes en 4K, applicable à divers modèles de diffusion latente, démontrant son efficacité dans la synthèse d'images 4K hautement détaillées. Par conséquent, Diffusion-4K atteint des performances impressionnantes en matière de synthèse d'images de haute qualité et d'adhésion aux prompts textuels, en particulier lorsqu'il est alimenté par des modèles de diffusion modernes à grande échelle (par exemple, SD3-2B et Flux-12B). Les résultats expérimentaux approfondis de notre benchmark démontrent la supériorité de Diffusion-4K dans la synthèse d'images en ultra-haute résolution.
English
In this paper, we present Diffusion-4K, a novel framework for direct
ultra-high-resolution image synthesis using text-to-image diffusion models. The
core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence
of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K,
a comprehensive benchmark for ultra-high-resolution image generation. We
curated a high-quality 4K dataset with carefully selected images and captions
generated by GPT-4o. Additionally, we introduce GLCM Score and Compression
Ratio metrics to evaluate fine details, combined with holistic measures such as
FID, Aesthetics and CLIPScore for a comprehensive assessment of
ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a
wavelet-based fine-tuning approach for direct training with photorealistic 4K
images, applicable to various latent diffusion models, demonstrating its
effectiveness in synthesizing highly detailed 4K images. Consequently,
Diffusion-4K achieves impressive performance in high-quality image synthesis
and text prompt adherence, especially when powered by modern large-scale
diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results
from our benchmark demonstrate the superiority of Diffusion-4K in
ultra-high-resolution image synthesis.Summary
AI-Generated Summary