ChatPaper.aiChatPaper

UltraHR-100K: Mejora de la Síntesis de Imágenes UHR con un Conjunto de Datos a Gran Escala y de Alta Calidad

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

October 23, 2025
Autores: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI

Resumen

La generación de imágenes a partir de texto (T2I) de ultra alta resolución (UHR) ha experimentado un progreso notable. Sin embargo, persisten dos desafíos clave: 1) la ausencia de un conjunto de datos T2I UHR a gran escala y de alta calidad, y 2) la falta de estrategias de entrenamiento específicas para la síntesis de detalles finos en escenarios UHR. Para abordar el primer desafío, presentamos UltraHR-100K, un conjunto de datos de alta calidad que contiene 100.000 imágenes UHR con descripciones detalladas, que ofrece contenido diverso y una gran fidelidad visual. Cada imagen supera la resolución de 3K y ha sido rigurosamente seleccionada en función de la riqueza de detalles, la complejidad del contenido y la calidad estética. Para abordar el segundo desafío, proponemos un método de post-entrenamiento consciente de la frecuencia que mejora la generación de detalles finos en los modelos de difusión T2I. Específicamente, diseñamos (i) un Muestreo de Pasos de Tiempo Orientado al Detalle (DOTS) para centrar el aprendizaje en los pasos de desruido críticos para los detalles, y (ii) una Regularización de Frecuencia de Ponderación Suave (SWFR), que aprovecha la Transformada de Fourier Discreta (DFT) para restringir suavemente los componentes de frecuencia, fomentando la preservación de detalles de alta frecuencia. Experimentos exhaustivos en nuestros benchmarks propuestos UltraHR-eval4K demuestran que nuestro enfoque mejora significativamente la calidad de los detalles finos y la fidelidad general de la generación de imágenes UHR. El código está disponible en https://github.com/NJU-PCALab/UltraHR-100k.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable progress. However, two key challenges remain : 1) the absence of a large-scale high-quality UHR T2I dataset, and (2) the neglect of tailored training strategies for fine-grained detail synthesis in UHR scenarios. To tackle the first challenge, we introduce UltraHR-100K, a high-quality dataset of 100K UHR images with rich captions, offering diverse content and strong visual fidelity. Each image exceeds 3K resolution and is rigorously curated based on detail richness, content complexity, and aesthetic quality. To tackle the second challenge, we propose a frequency-aware post-training method that enhances fine-detail generation in T2I diffusion models. Specifically, we design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning on detail-critical denoising steps, and (ii) Soft-Weighting Frequency Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to softly constrain frequency components, encouraging high-frequency detail preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks demonstrate that our approach significantly improves the fine-grained detail quality and overall fidelity of UHR image generation. The code is available at https://github.com/NJU-PCALab/UltraHR-100k{here}.
PDF131December 1, 2025