ChatPaper.aiChatPaper

UltraFlux:多様なアスペクト比に対応する高品質ネイティブ4Kテキスト画像生成のためのデータモデル協調設計

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

November 22, 2025
著者: Tian Ye, Song Fei, Lei Zhu
cs.AI

要旨

拡散トランスフォーマー(Diffusion Transformer: DiT)は最近、1K解像度でのテキストから画像への生成において優れた性能を示している。しかし、本論文では、これらを様々なアスペクト比(AR)でネイティブ4Kまで拡張すると、位置エンコーディング、VAE圧縮、最適化にまたがる強く結合した失敗モードが顕在化することを示す。これらの要因を個別に取り扱っても、画質の大幅な改善には至らない。そこで我々は、データとモデルの協調設計の観点から、UltraFluxを提案する。これは、FluxベースのDiTをネイティブ4Kで学習させたモデルであり、学習データとしてMultiAspect-4K-1Mを使用する。このデータセットは100万枚の4K画像からなり、制御された多様なARカバレッジ、二言語キャプション、解像度およびARを考慮したサンプリングのための豊富なVLM/IQAメタデータを備えている。モデル側では、UltraFluxは以下の4つの要素を組み合わせている。(i) 4Kにおける学習ウィンドウ・周波数・ARを考慮した位置エンコーディングのための、YaRNを組み合わせたResonance 2D RoPE。(ii) 4K再構成の忠実度を向上させる、単純で敵対的訓練を必要としないVAEの学習後処理スキーム。(iii) タイムステップと周波数帯域にわたって勾配のバランスを再調整するSNRを考慮したHuber Wavelet損失関数。(iv) モデルの事前分布によって支配される高ノイズステップに高審美性の監督信号を集中させる段階的審美性カリキュラム学習戦略。これらのコンポーネントが一体となり、広角、正方形、縦長のARに汎化する、安定したディテール保存性の高い4K DiTが実現する。4096解像度のAesthetic-Evalベンチマークおよび多様なARの4K設定において、UltraFluxは忠実度、審美性、整合性の各指標で強力なオープンソースベースラインを一貫して上回り、LLMプロンプト改良器を組み合わせることで、プロプライエタリモデルであるSeedream 4.0に匹敵する、あるいはそれを上回る性能を達成する。
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.
PDF382February 7, 2026