ChatPaper.aiChatPaper

UltraFlux: 다양한 화면비에서 고품질 네이티브 4K 텍스트-이미지 생성을 위한 데이터-모델 공동 설계

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

November 22, 2025
저자: Tian Ye, Song Fei, Lei Zhu
cs.AI

초록

디퓨전 트랜스포머는 최근 1K 해상도 분야에서 강력한 텍스트-이미지 생성 성능을 보여주었으나, 본 연구에서는 다양한 종횡비에서 기본 4K 해상도로 확장할 경우 위치 인코딩, VAE 압축, 최적화에 걸친 긴밀하게 결합된 실패 모드가 나타남을 보여줍니다. 이러한 요소들을 개별적으로 해결하는 것은 상당한 품질 향상의 기회를 놓치게 합니다. 따라서 우리는 데이터-모델 공동 설계 관점을 취하고 UltraFlux를 소개합니다. 이는 Flux 기반 DiT로, 제어된 다중 종횡비 범위, 이중 언어 캡션, 해상도 및 종횡비 인식 샘플링을 위한 풍부한 VLM/IQA 메타데이터를 갖춘 100만 장 규모의 4K 이미지 코퍼스인 MultiAspect-4K-1M에서 기본적으로 4K 해상도로 학습되었습니다. 모델 측면에서 UltraFlux는 (i) 4K에서 학습-창, 주파수, 종횡비 인식 위치 인코딩을 위한 YaRN과 결합된 Resonance 2D RoPE; (ii) 4K 재구성 충실도를 향상시키는 간단한 비-적대적 사후 학습 VAE 기법; (iii) 타임스텝과 주파수 대역 간 그래디언트 균형을 재조정하는 SNR-인식 Huber Wavelet 목적 함수; (iv) 모델 사전 분포에 의해 제어되는 고-잡음 스텝에 고-심미성 감독을 집중시키는 단계별 심미성 교욱 학습 전략을 결합합니다. 이러한 구성 요소들은 함께 광범위, 정사각형, 세로 길이의 종횡비에 걸쳐 일반화되는 안정적이고 디테일을 보존하는 4K DiT를 구현합니다. 4096 벤치마크에서의 Aesthetic-Eval 및 다중 종횡비 4K 설정에서 UltraFlux는 충실도, 심미성, 정렬도 메트릭 전반에 걸쳐 강력한 오픈소스 기준 모델들을 일관되게 능가하며, LLM 프롬프트 리파이너와 결합 시 독점 모델인 Seedream 4.0에 필적하거나 이를 넘어서는 성능을 보여줍니다.
English
Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.
PDF382February 7, 2026