UltraHR-100K: Verbetering van UHR-beeldsynthese met een grootschalige, hoogwaardige dataset
UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset
October 23, 2025
Auteurs: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI
Samenvatting
De generatie van ultrahoogresolutie (UHR) tekst-naar-beeld (T2I) heeft aanzienlijke vooruitgang geboekt. Er blijven echter twee belangrijke uitdagingen bestaan: 1) het ontbreken van een grootschalige, hoogwaardige UHR T2I-dataset, en 2) het verwaarlozen van op maat gemaakte trainingsstrategieën voor de synthese van fijne details in UHR-scenario's. Om de eerste uitdaging aan te pakken, introduceren we UltraHR-100K, een hoogwaardige dataset van 100K UHR-afbeeldingen met uitgebreide bijschriften, die diverse inhoud en sterke visuele geloofwaardigheid biedt. Elke afbeelding overschrijdt een resolutie van 3K en is rigoureus gecureerd op basis van detailrijkdom, inhoudscomplexiteit en esthetische kwaliteit. Om de tweede uitdaging aan te pakken, stellen we een frequentiebewuste *post-training* methode voor die de generatie van fijne details in T2I-diffusiemodellen verbetert. Specifiek ontwerpen we (i) *Detail-Oriented Timestep Sampling* (DOTS) om het leren te richten op detailkritieke denoiseringsstappen, en (ii) *Soft-Weighting Frequency Regularization* (SWFR), dat gebruikmaakt van de discrete Fouriertransformatie (DFT) om frequentiecomponenten zachtjes te beperken, waardoor het behoud van hoogfrequente details wordt aangemoedigd. Uitgebreide experimenten op onze voorgestelde UltraHR-eval4K benchmarks tonen aan dat onze aanpak de kwaliteit van fijne details en de algehele geloofwaardigheid van UHR-beeldgeneratie significant verbetert. De code is beschikbaar op https://github.com/NJU-PCALab/UltraHR-100k.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable
progress. However, two key challenges remain : 1) the absence of a large-scale
high-quality UHR T2I dataset, and (2) the neglect of tailored training
strategies for fine-grained detail synthesis in UHR scenarios. To tackle the
first challenge, we introduce UltraHR-100K, a high-quality dataset of
100K UHR images with rich captions, offering diverse content and strong visual
fidelity. Each image exceeds 3K resolution and is rigorously curated based on
detail richness, content complexity, and aesthetic quality. To tackle the
second challenge, we propose a frequency-aware post-training method that
enhances fine-detail generation in T2I diffusion models. Specifically, we
design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning
on detail-critical denoising steps, and (ii) Soft-Weighting Frequency
Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to
softly constrain frequency components, encouraging high-frequency detail
preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks
demonstrate that our approach significantly improves the fine-grained detail
quality and overall fidelity of UHR image generation. The code is available at
https://github.com/NJU-PCALab/UltraHR-100k{here}.