UltraHR-100K: Aprimorando a Síntese de Imagens UHR com um Conjunto de Dados em Larga Escala e de Alta Qualidade
UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset
October 23, 2025
Autores: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI
Resumo
A geração de imagens a partir de texto (T2I) de ultra-alta resolução (UHR) tem registado progressos notáveis. No entanto, dois desafios principais persistem: 1) a ausência de um conjunto de dados T2I UHR em larga escala e de alta qualidade, e 2) a negligência de estratégias de treino personalizadas para a síntese de detalhes de granularidade fina em cenários UHR. Para enfrentar o primeiro desafio, introduzimos o UltraHR-100K, um conjunto de dados de alta qualidade com 100 mil imagens UHR acompanhadas de legendas ricas, oferecendo conteúdo diversificado e forte fidelidade visual. Cada imagem excede a resolução de 3K e é rigorosamente selecionada com base na riqueza de detalhes, complexidade do conteúdo e qualidade estética. Para enfrentar o segundo desafio, propomos um método de pós-treinamento consciente da frequência que melhora a geração de detalhes finos em modelos de difusão T2I. Especificamente, concebemos (i) a Amostragem de *Timestep* Orientada a Detalhes (DOTS) para concentrar a aprendizagem nas etapas de desruído críticas para os detalhes, e (ii) a Regularização de Frequência com Ponderação Suave (SWFR), que aproveita a Transformada Discreta de Fourier (TDF) para restringir suavemente os componentes de frequência, incentivando a preservação de detalhes de alta frequência. Experiências extensivas nos nossos benchmarks propostos, UltraHR-eval4K, demonstram que a nossa abordagem melhora significativamente a qualidade dos detalhes de granularidade fina e a fidelidade global da geração de imagens UHR. O código está disponível em https://github.com/NJU-PCALab/UltraHR-100k.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable
progress. However, two key challenges remain : 1) the absence of a large-scale
high-quality UHR T2I dataset, and (2) the neglect of tailored training
strategies for fine-grained detail synthesis in UHR scenarios. To tackle the
first challenge, we introduce UltraHR-100K, a high-quality dataset of
100K UHR images with rich captions, offering diverse content and strong visual
fidelity. Each image exceeds 3K resolution and is rigorously curated based on
detail richness, content complexity, and aesthetic quality. To tackle the
second challenge, we propose a frequency-aware post-training method that
enhances fine-detail generation in T2I diffusion models. Specifically, we
design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning
on detail-critical denoising steps, and (ii) Soft-Weighting Frequency
Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to
softly constrain frequency components, encouraging high-frequency detail
preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks
demonstrate that our approach significantly improves the fine-grained detail
quality and overall fidelity of UHR image generation. The code is available at
https://github.com/NJU-PCALab/UltraHR-100k{here}.