UltraFlux: Data-Model Co-Design voor Hoogwaardige Native 4K Tekst-naar-Beeld Generatie voor Diverse Beeldverhoudingen
UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
November 22, 2025
Auteurs: Tian Ye, Song Fei, Lei Zhu
cs.AI
Samenvatting
Diffusion Transformers hebben recentelijk sterke tekst-naar-beeldgeneratie rond 1K-resolutie geleverd, maar wij tonen aan dat het uitbreiden naar native 4K over diverse beeldverhoudingen een sterk gekoppelde faalmodus blootlegt die positionele codering, VAE-compressie en optimalisatie omvat. Het afzonderlijk aanpakken van een van deze factoren laat aanzienlijke kwaliteit onbenut. Daarom nemen wij een data-model co-design perspectief in en introduceren UltraFlux, een Flux-gebaseerde DiT die natieve wordt getraind op 4K met MultiAspect-4K-1M, een 4K-corpus van 1 miljoen afbeeldingen met gecontroleerde multi-AR-dekking, tweetalige bijschriften en rijke VLM/IQA-metadata voor resolutie- en AR-bewuste sampling. Aan modelzijde combineert UltraFlux (i) Resonance 2D RoPE met YaRN voor trainvenster-, frequentie- en AR-bewuste positionele codering op 4K; (ii) een eenvoudig, niet-adversarieel VAE-post-trainingsschema dat de 4K-reconstructiefideliteit verbetert; (iii) een SNR-bewust Huber Wavelet-doel dat gradienten herbalanceert over tijdstappen en frequentiebanden; en (iv) een gefaseerde Aesthetic Curriculum Learning-strategie die hoog-esthetisch toezicht concentreert op hoog-ruis stappen, gestuurd door de modelprior. Gezamenlijk leveren deze componenten een stabiele, detailbewarende 4K DiT op die generaliseert over brede, vierkante en hoge beeldverhoudingen. Op de Aesthetic-Eval at 4096 benchmark en multi-AR 4K-instellingen presteert UltraFlux consistent beter dan sterke open-source basislijnen op het gebied van fideliteit, esthetiek en alignatie, en – met een LLM-promptverfijner – evenaart of overtreft het de propriëtaire Seedream 4.0.
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.