ChatPaper.aiChatPaper

Diffusion-4K: Синтез изображений сверхвысокого разрешения с использованием латентных диффузионных моделей

Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

March 24, 2025
Авторы: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang
cs.AI

Аннотация

В данной статье мы представляем Diffusion-4K — новый фреймворк для прямой синтеза изображений сверхвысокого разрешения с использованием моделей диффузии текст-изображение. Основные достижения включают: (1) Бенчмарк Aesthetic-4K: для устранения отсутствия общедоступного набора данных для синтеза 4K-изображений мы создали Aesthetic-4K — всеобъемлющий бенчмарк для генерации изображений сверхвысокого разрешения. Мы собрали высококачественный 4K-набор данных с тщательно отобранными изображениями и подписями, сгенерированными GPT-4o. Дополнительно мы вводим метрики GLCM Score и Compression Ratio для оценки мелких деталей, а также комплексные меры, такие как FID, Aesthetics и CLIPScore, для всесторонней оценки изображений сверхвысокого разрешения. (2) Тонкая настройка на основе вейвлетов: мы предлагаем подход тонкой настройки на основе вейвлетов для прямого обучения с фотореалистичными 4K-изображениями, применимый к различным латентным моделям диффузии, демонстрируя его эффективность в синтезе высокодетализированных 4K-изображений. В результате Diffusion-4K демонстрирует впечатляющие результаты в синтезе высококачественных изображений и следовании текстовым запросам, особенно при использовании современных крупномасштабных моделей диффузии (например, SD3-2B и Flux-12B). Обширные экспериментальные результаты нашего бенчмарка подтверждают превосходство Diffusion-4K в синтезе изображений сверхвысокого разрешения.
English
In this paper, we present Diffusion-4K, a novel framework for direct ultra-high-resolution image synthesis using text-to-image diffusion models. The core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K, a comprehensive benchmark for ultra-high-resolution image generation. We curated a high-quality 4K dataset with carefully selected images and captions generated by GPT-4o. Additionally, we introduce GLCM Score and Compression Ratio metrics to evaluate fine details, combined with holistic measures such as FID, Aesthetics and CLIPScore for a comprehensive assessment of ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a wavelet-based fine-tuning approach for direct training with photorealistic 4K images, applicable to various latent diffusion models, demonstrating its effectiveness in synthesizing highly detailed 4K images. Consequently, Diffusion-4K achieves impressive performance in high-quality image synthesis and text prompt adherence, especially when powered by modern large-scale diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results from our benchmark demonstrate the superiority of Diffusion-4K in ultra-high-resolution image synthesis.

Summary

AI-Generated Summary

PDF62March 25, 2025