UltraFlux: Daten-Modell-Co-Design für hochwertige native 4K-Text-zu-Bild-Generierung über diverse Seitenverhältnisse hinweg
UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
November 22, 2025
papers.authors: Tian Ye, Song Fei, Lei Zhu
cs.AI
papers.abstract
Diffusion-Transformer haben kürzlich eine beeindruckende Text-zu-Bild-Generierung bei etwa 1K-Auflösung erreicht, doch wir zeigen, dass ihre Erweiterung auf native 4K-Auflösung über diverse Seitenverhältnisse hinweg einen stark gekoppelten Fehlermodus offenlegt, der Positionskodierung, VAE-Kompression und Optimierung umfasst. Die isolierte Behandlung eines dieser Faktoren lässt erhebliche Qualität ungenutzt. Daher verfolgen wir einen Data-Model-Co-Design-Ansatz und stellen UltraFlux vor, einen Flux-basierten DiT, der nativ bei 4K auf MultiAspect-4K-1M trainiert wurde – einem 4K-Korpus mit 1M Bildern, kontrollierter Multi-AR-Abdeckung, bilingualen Beschreibungen und umfangreichen VLM/IQA-Metadaten für auflösungs- und AR-bewusste Stichproben. Auf der Modellseite kombiniert UltraFlux (i) Resonance 2D RoPE mit YaRN für trainingsfenster-, frequenz- und AR-bewusste Positionskodierung bei 4K; (ii) ein einfaches, nicht-adversarielles VAE-Nachtrainingsschema, das die 4K-Rekonstruktionstreue verbessert; (iii) ein SNR-bewusstes Huber-Wavelet-Ziel, das Gradienten über Zeitschritte und Frequenzbänder hinweg neu gewichtet; und (iv) eine stufenweise ästhetische Curriculum-Learning-Strategie, die ästhetische Hochwertaufsicht auf hochverrauschte Schritte konzentriert, die durch die Modellpräferenz gesteuert werden. Zusammengenommen ergeben diese Komponenten einen stabilen, detailerhaltenden 4K-DiT, der über breite, quadratische und hohe ARs hinweg generalisiert. Im Aesthetic-Eval-Benchmark bei 4096 und Multi-AR-4K-Einstellungen übertrifft UltraFlux durchgängig starke Open-Source-Baselines in Bezug auf Treue, Ästhetik und Übereinstimmung und erreicht – mit einem LLM-Prompt-Verfeinerer – die Qualität des proprietären Seedream 4.0 oder übertrifft sie.
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.