UltraFlux: Совместное проектирование данных и модели для генерации высококачественных нативных 4K изображений по тексту в различных соотношениях сторон
UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
November 22, 2025
Авторы: Tian Ye, Song Fei, Lei Zhu
cs.AI
Аннотация
Трансформеры диффузии недавно продемонстрировали высокое качество генерации изображений из текста в разрешении около 1K, однако наше исследование показывает, что их масштабирование до нативного 4K с разнообразными соотношениями сторон выявляет тесно связанный режим сбоя, затрагивающий позиционное кодирование, сжатие VAE и оптимизацию. Решение любой из этих проблем по отдельности оставляет существенный потенциал качества нереализованным. Поэтому мы применяем подход совместного проектирования данных и модели и представляем UltraFlux — основанный на Flux диффузионный трансформер, обученный нативно в 4K на наборе данных MultiAspect-4K-1M. Этот корпус из 1 миллиона 4K-изображений обеспечивает контролируемое покрытие различных соотношений сторон, двуязычные описания и богатые метаданные VLM/IQA для сэмплинга с учетом разрешения и соотношения сторон. Со стороны модели UltraFlux сочетает: (i) Resonance 2D RoPE с YaRN для позиционного кодирования, учитывающего размер окна обучения, частоты и соотношения сторон в 4K; (ii) простую неадверсариальную схему пост-тренировочной доработки VAE, повышающую точность реконструкции в 4K; (iii) SNR-Aware Huber Wavelet функцию потерь, перебалансирующую градиенты по временным шагам и частотным полосам; и (iv) поэтапную стратегию эстетического curriculum learning, концентрирующую supervision высокоэстетичных примеров на шагах с высоким шумом, управляемых априорной моделью. В совокупности эти компоненты создают стабильный 4K диффузионный трансформер, сохраняющий детализацию и обобщающийся для широких, квадратных и высоких соотношений сторон. На бенчмарке Aesthetic-Eval при 4096 и в мульти-AR 4K настройках UltraFlux последовательно превосходит сильные открытые базовые линии по метрикам fidelity, эстетики и соответствия тексту, а с использованием LLM-рефайтера промптов достигает или превосходит результаты проприетарной модели Seedream 4.0.
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.