ChatPaper.aiChatPaper

UltraHR-100K: Повышение качества синтеза UHR-изображений с помощью масштабного высококачественного набора данных

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

October 23, 2025
Авторы: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI

Аннотация

Генерация изображений по тексту (T2I) сверхвысокого разрешения (UHR) достигла значительного прогресса. Однако остаются две ключевые проблемы: 1) отсутствие масштабного высококачественного набора данных UHR T2I и 2) игнорирование специализированных стратегий обучения для синтеза мелкозернистых деталей в сценариях UHR. Для решения первой проблемы мы представляем UltraHR-100K — высококачественный набор данных, содержащий 100 тыс. изображений UHR с подробными описаниями, который предлагает разнообразный контент и высокую визуальную достоверность. Каждое изображение имеет разрешение свыше 3K и тщательно отбирается на основе насыщенности деталями, сложности содержания и эстетического качества. Для решения второй проблемы мы предлагаем частотно-ориентированный метод пост-обучения, который улучшает генерацию мелких деталей в диффузионных моделях T2I. В частности, мы разрабатываем (i) детально-ориентированную выборку временных шагов (DOTS) для концентрации обучения на шагах денойзинга, критически важных для детализации, и (ii) мягкую частотную регуляризацию с весовыми коэффициентами (SWFR), которая использует дискретное преобразование Фурье (ДПФ) для мягкого ограничения частотных компонентов, способствуя сохранению высокочастотных деталей. Многочисленные эксперименты на наших предложенных эталонах UltraHR-eval4K демонстрируют, что наш подход существенно улучшает качество мелкозернистых деталей и общую достоверность генерации изображений UHR. Код доступен по адресу https://github.com/NJU-PCALab/UltraHR-100k.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable progress. However, two key challenges remain : 1) the absence of a large-scale high-quality UHR T2I dataset, and (2) the neglect of tailored training strategies for fine-grained detail synthesis in UHR scenarios. To tackle the first challenge, we introduce UltraHR-100K, a high-quality dataset of 100K UHR images with rich captions, offering diverse content and strong visual fidelity. Each image exceeds 3K resolution and is rigorously curated based on detail richness, content complexity, and aesthetic quality. To tackle the second challenge, we propose a frequency-aware post-training method that enhances fine-detail generation in T2I diffusion models. Specifically, we design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning on detail-critical denoising steps, and (ii) Soft-Weighting Frequency Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to softly constrain frequency components, encouraging high-frequency detail preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks demonstrate that our approach significantly improves the fine-grained detail quality and overall fidelity of UHR image generation. The code is available at https://github.com/NJU-PCALab/UltraHR-100k{here}.
PDF131December 1, 2025