UltraFlux: Co-diseño de Datos y Modelos para la Generación Nativa de Imágenes de Texto a Imagen en 4K de Alta Calidad para Diversas Relaciones de Aspecto
UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
November 22, 2025
Autores: Tian Ye, Song Fei, Lei Zhu
cs.AI
Resumen
Los transformadores de difusión han logrado recientemente una sólida generación de texto a imagen en resoluciones alrededor de 1K, pero demostramos que extenderlos de forma nativa a 4K en diversos ratios de aspecto (AR) expone un modo de fallo estrechamente acoplado que abarca la codificación posicional, la compresión VAE y la optimización. Abordar cualquiera de estos factores de forma aislada deja un potencial de calidad sustancial sobre la mesa. Por lo tanto, adoptamos una perspectiva de co-diseño de datos y modelo e introducimos UltraFlux, un DiT basado en Flux entrenado de forma nativa a 4K en MultiAspect-4K-1M, un corpus de 1 millón de imágenes en 4K con cobertura multi-AR controlada, subtítulos bilingües y metadatos ricos de VLM/IQA para un muestreo consciente de la resolución y el AR. En el lado del modelo, UltraFlux combina (i) Resonance 2D RoPE con YaRN para una codificación posicional a 4K consciente de la ventana de entrenamiento, la frecuencia y el AR; (ii) un esquema simple y no adversarial de post-entrenamiento del VAE que mejora la fidelidad de reconstrucción en 4K; (iii) una función de pérdida SNR-Aware Huber Wavelet que reequilibra los gradientes a lo largo de los pasos de tiempo y las bandas de frecuencia; y (iv) una estrategia de Aprendizaje por Currículo Estético por Etapas que concentra la supervisión de alta estética en los pasos de alto ruido gobernados por el *prior* del modelo. En conjunto, estos componentes producen un DiT 4K estable y que preserva el detalle, generalizando a través de AR anchos, cuadrados y verticales. En el benchmark Aesthetic-Eval a 4096 y en configuraciones multi-AR 4K, UltraFlux supera consistentemente a fuertes *baselines* de código abierto en métricas de fidelidad, estética y alineación, y—con un refinador de prompts basado en un LLM—igual o supera al modelo propietario Seedream 4.0.
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.