ChatPaper.aiChatPaper

UltraHR-100K: 대규모 고품질 데이터셋을 통한 초고해상도 이미지 합성 향상

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

October 23, 2025
저자: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI

초록

초고해상도(UHR) 텍스트-이미지(T2I) 생성 기술은 눈에 띄는 발전을 이루었습니다. 그러나 두 가지 주요 과제가 여전히 존재합니다: 1) 대규모 고품질 UHR T2I 데이터셋의 부재, 그리고 2) UHR 시나리오에서 정교한 디테일 합성을 위한 맞춤형 학습 전략의 부족입니다. 첫 번째 과제를 해결하기 위해 우리는 풍부한 캡션과 함께 다양한 콘텐츠와 높은 시각적 충실도를 제공하는 10만 장의 고품질 UHR 이미지로 구성된 UltraHR-100K 데이터셋을 소개합니다. 각 이미지는 3K 해상도를 초과하며 디테일 풍부성, 콘텐츠 복잡성, 미적 품질을 기준으로 엄격하게 선별되었습니다. 두 번째 과제를 해결하기 위해 우리는 T2I 확산 모델의 정교한 디테일 생성 능력을 향상시키는 주파수 인식 사후 학습 방법을 제안합니다. 구체적으로, (i) 디테일 중심 디노이징 단계에 학습을 집중하기 위한 Detail-Oriented Timestep Sampling (DOTS)과, (ii) 이산 푸리에 변환(DFT)을 활용하여 주파수 성분을 유연하게 제약함으로써 고주파 디테일 보존을 장려하는 Soft-Weighting Frequency Regularization (SWFR)을 설계했습니다. 우리가 제안한 UltraHR-eval4K 벤치마크에서의 광범위한 실험을 통해 본 접근 방식이 UHR 이미지 생성의 정교한 디테일 품질과 전반적인 충실도를 크게 향상시킴을 입증했습니다. 코드는 https://github.com/NJU-PCALab/UltraHR-100k에서 확인할 수 있습니다.
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable progress. However, two key challenges remain : 1) the absence of a large-scale high-quality UHR T2I dataset, and (2) the neglect of tailored training strategies for fine-grained detail synthesis in UHR scenarios. To tackle the first challenge, we introduce UltraHR-100K, a high-quality dataset of 100K UHR images with rich captions, offering diverse content and strong visual fidelity. Each image exceeds 3K resolution and is rigorously curated based on detail richness, content complexity, and aesthetic quality. To tackle the second challenge, we propose a frequency-aware post-training method that enhances fine-detail generation in T2I diffusion models. Specifically, we design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning on detail-critical denoising steps, and (ii) Soft-Weighting Frequency Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to softly constrain frequency components, encouraging high-frequency detail preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks demonstrate that our approach significantly improves the fine-grained detail quality and overall fidelity of UHR image generation. The code is available at https://github.com/NJU-PCALab/UltraHR-100k{here}.
PDF131December 1, 2025