UltraFlux: Co-Design de Dados e Modelo para Geração Nativa de Imagens Texto-para-Imagem em 4K de Alta Qualidade em Diversas Proporções de Tela

Resumo

Os transformadores de difusão (DiT) recentemente demonstraram geração robusta de imagens a partir de texto em resoluções próximas a 1K, mas mostramos que estendê-los nativamente para 4K em diversas proporções de aspecto (AR) expõe um modo de falha fortemente acoplado que abrange codificação posicional, compressão VAE e otimização. Abordar qualquer um desses fatores isoladamente deixa uma qualidade substancial sobre a mesa. Adotamos, portanto, uma visão de co-projeto de dados e modelo e introduzimos o UltraFlux, um DiT baseado em Flux treinado nativamente em 4K no MultiAspect-4K-1M, um corpus de 1 milhão de imagens 4K com cobertura multi-AR controlada, legendas bilíngues e metadados ricos de VLM/IQA para amostragem consciente da resolução e AR. No lado do modelo, o UltraFlux acopla (i) RoPE 2D de Ressonância com YaRN para uma codificação posicional em 4K consciente da janela de treinamento, frequência e AR; (ii) um esquema simples e não adversarial de pós-treinamento do VAE que melhora a fidelidade de reconstrução em 4K; (iii) um objetivo SNR-Aware Huber Wavelet que reequilibra os gradientes entre os intervalos de tempo e bandas de frequência; e (iv) uma estratégia de Aprendizado por Currículo Estético em Etapas que concentra a supervisão de alta estética em passos de alto ruído governados pelo *prior* do modelo. Juntos, esses componentes resultam em um DiT 4K estável e que preserva detalhes, generalizando para ARs largos, quadrados e altos. No benchmark Aesthetic-Eval a 4096 e em configurações 4K multi-AR, o UltraFlux supera consistentemente *baselines* de código aberto robustas em métricas de fidelidade, estética e alinhamento, e - com um refinador de prompt baseado em LLM - iguala ou supera o proprietário Seedream 4.0.

English

Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.

UltraFlux: Co-Design de Dados e Modelo para Geração Nativa de Imagens Texto-para-Imagem em 4K de Alta Qualidade em Diversas Proporções de Tela

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

Resumo

Support