ChatPaper.aiChatPaper

UltraFlux: Co-Design di Dati e Modello per la Generazione Nativa di Immagini da Testo di Alta Qualità in 4K su Diversi Rapporti d'Aspetto

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

November 22, 2025
Autori: Tian Ye, Song Fei, Lei Zhu
cs.AI

Abstract

I transformer per diffusione hanno recentemente ottenuto eccellenti risultati nella generazione di immagini da testo attorno alla risoluzione 1K, ma dimostriamo che estenderli a 4K nativi su diversi aspect ratio rivela una modalità di errore strettamente accoppiata che coinvolge la codifica posizionale, la compressione VAE e l'ottimizzazione. Affrontare singolarmente uno di questi fattori lascia sul piatto una qualità sostanziale. Adottiamo quindi una prospettiva di co-progettazione dati-modello e introduciamo UltraFlux, un DiT basato su Flux addestrato nativamente a 4K su MultiAspect-4K-1M, un corpus di 1 milione di immagini 4K con copertura multi-AR controllata, didascalie bilingue e ricchi metadati VLM/IQA per un campionamento consapevole della risoluzione e dell'AR. Sul lato del modello, UltraFlux combina (i) Resonance 2D RoPE con YaRN per una codifica posizionale a 4K consapevole della finestra di addestramento, della frequenza e dell'AR; (ii) uno schema semplice e non adversarial di post-addestramento VAE che migliora la fedeltà della ricostruzione a 4K; (iii) un obiettivo SNR-Aware Huber Wavelet che riequilibra i gradienti attraverso i timestep e le bande di frequenza; e (iv) una strategia di Apprendimento per Curriculum Estetico Fase-per-Fase che concentra la supervisione di alta estetica sui passi ad alto rumore governati dal prior del modello. Insieme, questi componenti producono un DiT 4K stabile e che preserva i dettagli, in grado di generalizzare su AR larghi, quadrati e verticali. Sul benchmark Aesthetic-Eval a 4096 e in contesti multi-AR 4K, UltraFlux supera costantemente forti baseline open-source nelle metriche di fedeltà, estetica e allineamento e, con un raffinatore di prompt basato su LLM, eguaglia o supera il proprietario Seedream 4.0.
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.
PDF372December 3, 2025