I-Max: 사전 훈련된 정정된 플로우 트랜스포머의 해상도 잠재력을 최대화하는 프로젝트된 플로우
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow
October 10, 2024
저자: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao
cs.AI
초록
Rectified Flow Transformers (RFTs)는 우수한 학습 및 추론 효율성을 제공하여 확산 모델의 확장에 가장 적합한 방향으로 여겨질 수 있다. 그러나 생성 해상도의 발전은 데이터 품질과 학습 비용 때문에 비교적 느리게 이루어졌다. 튜닝 없는 해상도 추정은 대안으로 제시되었지만, 현재의 방법은 종종 생성 안정성을 감소시켜 실용적인 적용을 제한한다. 본 논문에서는 기존의 해상도 추정 방법을 검토하고 Text-to-Image RFTs의 해상도 잠재력을 극대화하기 위한 I-Max 프레임워크를 소개한다. I-Max의 특징은 다음과 같다: (i) 안정적인 추정을 위한 새로운 Projected Flow 전략 및 (ii) 고해상도로 모델 지식을 일반화하기 위한 고급 추론 도구. Lumina-Next-2K 및 Flux.1-dev와의 실험 결과는 I-Max가 해상도 추정에서 안정성을 향상시키는 능력을 보여주며, 이미지 세부 정보의 부각 및 아티팩트 수정을 가능케 하여 튜닝 없는 해상도 추정의 실용적 가치를 확인한다.
English
Rectified Flow Transformers (RFTs) offer superior training and inference
efficiency, making them likely the most viable direction for scaling up
diffusion models. However, progress in generation resolution has been
relatively slow due to data quality and training costs. Tuning-free resolution
extrapolation presents an alternative, but current methods often reduce
generative stability, limiting practical application. In this paper, we review
existing resolution extrapolation methods and introduce the I-Max framework to
maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a
novel Projected Flow strategy for stable extrapolation and (ii) an advanced
inference toolkit for generalizing model knowledge to higher resolutions.
Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to
enhance stability in resolution extrapolation and show that it can bring image
detail emergence and artifact correction, confirming the practical value of
tuning-free resolution extrapolation.Summary
AI-Generated Summary