ChatPaper.aiChatPaper

UltraHR-100K: 大規模高品質データセットによる超高精細画像合成の高度化

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

October 23, 2025
著者: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai
cs.AI

要旨

超高解像度(UHR)テキストから画像への生成技術は著しい進歩を遂げている。しかし、依然として2つの重要な課題が残されている。1)大規模で高品質なUHR T2Iデータセットの欠如、および2)UHRシナリオにおける細粒度の詳細合成に特化した訓練戦略の軽視である。最初の課題に対処するため、我々は10万枚の高品質UHR画像と豊富なキャプションから成るデータセット「UltraHR-100K」を提案する。本データセットは多様なコンテンツと強固な視覚的忠実性を提供し、各画像は3K解像度を超え、詳細の豊富さ、コンテンツの複雑さ、美的品質に基づいて厳選されている。2番目の課題に対処するため、我々はT2I拡散モデルにおける細部生成を強化する周波数認識型ポストトレーニング手法を提案する。具体的には、(i)詳細クリティカルなノイズ除去ステップに学習を集中させる「詳細指向タイムステップサンプリング」と、(ii)離散フーリエ変換を利用して周波数成分をソフトに制約し高周波詳細の保存を促進する「ソフト重み付け周波数正則化」を設計した。提案するUltraHR-eval4Kベンチマークによる大規模な実験により、本手法がUHR画像生成の細粒度詳細品質と全体的な忠実性を大幅に改善することが実証された。コードはhttps://github.com/NJU-PCALab/UltraHR-100k で公開されている。
English
Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable progress. However, two key challenges remain : 1) the absence of a large-scale high-quality UHR T2I dataset, and (2) the neglect of tailored training strategies for fine-grained detail synthesis in UHR scenarios. To tackle the first challenge, we introduce UltraHR-100K, a high-quality dataset of 100K UHR images with rich captions, offering diverse content and strong visual fidelity. Each image exceeds 3K resolution and is rigorously curated based on detail richness, content complexity, and aesthetic quality. To tackle the second challenge, we propose a frequency-aware post-training method that enhances fine-detail generation in T2I diffusion models. Specifically, we design (i) Detail-Oriented Timestep Sampling (DOTS) to focus learning on detail-critical denoising steps, and (ii) Soft-Weighting Frequency Regularization (SWFR), which leverages Discrete Fourier Transform (DFT) to softly constrain frequency components, encouraging high-frequency detail preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks demonstrate that our approach significantly improves the fine-grained detail quality and overall fidelity of UHR image generation. The code is available at https://github.com/NJU-PCALab/UltraHR-100k{here}.
PDF131December 1, 2025