ChatPaper.aiChatPaper

UltraHR-100K : Amélioration de la Synthèse d'Images UHR grâce à un Vaste Ensemble de Données de Haute Qualité

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

October 23, 2025
papers.authors: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI

papers.abstract

La génération d'images à partir de texte (T2I) en ultra-haute résolution (UHR) a connu des progrès notables. Cependant, deux défis majeurs subsistent : 1) l'absence d'un jeu de données T2I UHR à grande échelle et de haute qualité, et 2) la négligence de stratégies d'entraînement adaptées à la synthèse de détails fins dans les scénarios UHR. Pour relever le premier défi, nous présentons UltraHR-100K, un jeu de données de haute qualité contenant 100 000 images UHR accompagnées de descriptions riches, offrant un contenu diversifié et une forte fidélité visuelle. Chaque image dépasse une résolution de 3K et est rigoureusement sélectionnée sur la base de la richesse des détails, de la complexité du contenu et de la qualité esthétique. Pour relever le second défi, nous proposons une méthode de post-entraînement sensible aux fréquences qui améliore la génération de détails fins dans les modèles de diffusion T2I. Plus précisément, nous concevons (i) un Échantillonnage des Pas de Temps Orienté Détail (DOTS) pour concentrer l'apprentissage sur les étapes de débruitage critiques pour les détails, et (ii) une Régularisation Fréquentielle à Pondération Douce (SWFR), qui utilise la Transformée de Fourier Discrète (TFD) pour contraindre doucement les composantes fréquentielles, favorisant la préservation des détails haute fréquence. Des expériences approfondies sur nos benchmarks UltraHR-eval4K démontrent que notre approche améliore significativement la qualité des détails fins et la fidélité globale de la génération d'images UHR. Le code est disponible à l'adresse https://github.com/NJU-PCALab/UltraHR-100k.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable progress. However, two key challenges remain : 1) the absence of a large-scale high-quality UHR T2I dataset, and (2) the neglect of tailored training strategies for fine-grained detail synthesis in UHR scenarios. To tackle the first challenge, we introduce UltraHR-100K, a high-quality dataset of 100K UHR images with rich captions, offering diverse content and strong visual fidelity. Each image exceeds 3K resolution and is rigorously curated based on detail richness, content complexity, and aesthetic quality. To tackle the second challenge, we propose a frequency-aware post-training method that enhances fine-detail generation in T2I diffusion models. Specifically, we design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning on detail-critical denoising steps, and (ii) Soft-Weighting Frequency Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to softly constrain frequency components, encouraging high-frequency detail preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks demonstrate that our approach significantly improves the fine-grained detail quality and overall fidelity of UHR image generation. The code is available at https://github.com/NJU-PCALab/UltraHR-100k{here}.
PDF131December 1, 2025