ChatPaper.aiChatPaper

UltraFlux : Co-conception données-modèle pour une génération native de haute qualité d'images par texte en 4K, adaptable à divers ratios d'aspect

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

November 22, 2025
papers.authors: Tian Ye, Song Fei, Lei Zhu
cs.AI

papers.abstract

Les transformers de diffusion ont récemment démontré d'excellentes performances en génération d'images à partir de texte autour de la résolution 1K, mais nous montrons que leur extension native au 4K avec des ratios d'aspect variés révèle un mode d'échecl étroitement couplé impliquant l'encodage positionnel, la compression VAE et l'optimisation. Aborder isolément l'un de ces facteurs laisse d'importants gains de qualité inexploités. Nous adoptons donc une approche de co-conception données-modèle et introduisons UltraFlux, un DiT basé sur Flux entraîné nativement en 4K sur MultiAspect-4K-1M, un corpus de 1 million d'images 4K avec une couverture multi-RA contrôlée, des légendes bilingues et de riches métadonnées VLM/IQA pour un échantillonnage sensible à la résolution et au RA. Côté modèle, UltraFlux combine (i) le RoPE 2D Resonance avec YaRN pour un encodage positionnel adapté à la fenêtre d'entraînement, aux fréquences et au RA en 4K ; (ii) un simple schéma post-entraînement VAE non adversarial qui améliore la fidélité de reconstruction en 4K ; (iii) une fonction de coût SNR-Aware Huber Wavelet qui rééquilibre les gradients selon les pas de temps et les bandes de fréquence ; et (iv) une stratégie d'apprentissage curriculaire esthétique par étapes qui concentre la supervision de haute qualité esthétique sur les étapes à fort bruit, guidée par l'a priori du modèle. Ensemble, ces composants produisent un DiT 4K stable, préservant les détails et généralisant aux RA larges, carrés et verticaux. Sur le benchmark Aesthetic-Eval à 4096 et dans des configurations 4K multi-RA, UltraFlux surpasse constamment les solides bases de référence open-source en termes de fidélité, d'esthétique et d'alignement, et – avec un raffineur d'invites par LLM – égale ou dépasse le modèle propriétaire Seedream 4.0.
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.
PDF382February 7, 2026