UltraHR-100K: Verbesserung der Synthese ultrahochauflösender Bilder durch einen groß angelegten, hochwertigen Datensatz
UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset
October 23, 2025
papers.authors: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI
papers.abstract
Die Erzeugung von Bildern aus Text (Text-to-Image, T2I) mit ultrahoher Auflösung (Ultra-high-resolution, UHR) hat bemerkenswerte Fortschritte erzielt. Es bleiben jedoch zwei zentrale Herausforderungen bestehen: 1) das Fehlen eines groß angelegten, hochwertigen UHR-T2I-Datensatzes und 2) die Vernachlässigung maßgeschneiderter Trainingsstrategien für die Synthese feinkörniger Details in UHR-Szenarien. Um die erste Herausforderung zu bewältigen, stellen wir UltraHR-100K vor, einen hochwertigen Datensatz mit 100.000 UHR-Bildern und umfangreichen Beschriftungen, der vielfältige Inhalte und eine hohe visuelle Treue bietet. Jedes Bild übersteigt eine Auflösung von 3K und wurde streng nach den Kriterien Detailreichtum, Inhaltskomplexität und ästhetischer Qualität kuratiert. Um die zweite Herausforderung zu adressieren, schlagen wir ein frequenzbasiertes Post-Training-Verfahren vor, das die Erzeugung feiner Details in T2I-Diffusionsmodellen verbessert. Konkret entwerfen wir (i) eine detailorientierte Zeitschritt-Abtastung (Detail-Oriented Timestep Sampling, DOTS), um das Lernen auf die für Details kritischen Entrauschungsschritte zu fokussieren, und (ii) eine frequenzbasierte Regularisierung mit weicher Gewichtung (Soft-Weighting Frequency Regularization, SWFR), die die Diskrete Fourier-Transformation (DFT) nutzt, um Frequenzkomponenten weich zu beschränken und so die Erhaltung hochfrequenter Details fördert. Umfangreiche Experimente auf unseren vorgeschlagenen UltraHR-eval4K-Benchmarks zeigen, dass unser Ansatz die Qualität der feinkörnigen Details und die Gesamttreue der UHR-Bilderzeugung signifikant verbessert. Der Code ist unter https://github.com/NJU-PCALab/UltraHR-100k verfügbar.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable
progress. However, two key challenges remain : 1) the absence of a large-scale
high-quality UHR T2I dataset, and (2) the neglect of tailored training
strategies for fine-grained detail synthesis in UHR scenarios. To tackle the
first challenge, we introduce UltraHR-100K, a high-quality dataset of
100K UHR images with rich captions, offering diverse content and strong visual
fidelity. Each image exceeds 3K resolution and is rigorously curated based on
detail richness, content complexity, and aesthetic quality. To tackle the
second challenge, we propose a frequency-aware post-training method that
enhances fine-detail generation in T2I diffusion models. Specifically, we
design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning
on detail-critical denoising steps, and (ii) Soft-Weighting Frequency
Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to
softly constrain frequency components, encouraging high-frequency detail
preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks
demonstrate that our approach significantly improves the fine-grained detail
quality and overall fidelity of UHR image generation. The code is available at
https://github.com/NJU-PCALab/UltraHR-100k{here}.