ChatPaper.aiChatPaper

UltraHR-100K: Miglioramento della Sintesi di Immagini UHR con un Dataset Su Larga Scala e di Alta Qualità

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

October 23, 2025
Autori: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI

Abstract

La generazione di immagini da testo (T2I) ad ultra-alta risoluzione (UHR) ha registrato progressi significativi. Tuttavia, rimangono due sfide principali: 1) l'assenza di un dataset T2I UHR su larga scala e di alta qualità, e 2) la mancanza di strategie di training specifiche per la sintesi di dettagli fine-granularità in scenari UHR. Per affrontare la prima sfida, introduciamo UltraHR-100K, un dataset di alta qualità composto da 100K immagini UHR con descrizioni dettagliate, che offre contenuti diversificati e una forte fedeltà visiva. Ogni immagine supera la risoluzione 3K ed è stata rigorosamente selezionata in base alla ricchezza dei dettagli, alla complessità del contenuto e alla qualità estetica. Per affrontare la seconda sfida, proponiamo un metodo di post-training consapevole delle frequenze che migliora la generazione di dettagli fini nei modelli di diffusione T2I. Nello specifico, progettiamo (i) un Campionamento dei Timestep Orientato ai Dettagli (DOTS) per concentrare l'apprendimento sui passi di denoising critici per i dettagli, e (ii) una Regolarizzazione Frequenziale a Ponderazione Soft (SWFR), che sfrutta la Trasformata Discreta di Fourier (DFT) per vincolare delicatamente le componenti in frequenza, incoraggiando la preservazione dei dettagli ad alta frequenza. Esperimenti estesi sui nostri benchmark proposti UltraHR-eval4K dimostrano che il nostro approccio migliora significativamente la qualità dei dettagli fine-granularità e la fedeltà complessiva della generazione di immagini UHR. Il codice è disponibile al link https://github.com/NJU-PCALab/UltraHR-100k.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable progress. However, two key challenges remain : 1) the absence of a large-scale high-quality UHR T2I dataset, and (2) the neglect of tailored training strategies for fine-grained detail synthesis in UHR scenarios. To tackle the first challenge, we introduce UltraHR-100K, a high-quality dataset of 100K UHR images with rich captions, offering diverse content and strong visual fidelity. Each image exceeds 3K resolution and is rigorously curated based on detail richness, content complexity, and aesthetic quality. To tackle the second challenge, we propose a frequency-aware post-training method that enhances fine-detail generation in T2I diffusion models. Specifically, we design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning on detail-critical denoising steps, and (ii) Soft-Weighting Frequency Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to softly constrain frequency components, encouraging high-frequency detail preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks demonstrate that our approach significantly improves the fine-grained detail quality and overall fidelity of UHR image generation. The code is available at https://github.com/NJU-PCALab/UltraHR-100k{here}.
PDF131December 1, 2025