I-Max: 事前学習されたRectified Flow Transformersの解像度ポテンシャルをProjected Flowで最大化
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow
October 10, 2024
著者: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao
cs.AI
要旨
Rectified Flow Transformers(RFTs)は、優れたトレーニングおよび推論効率を提供し、拡散モデルのスケーリングアップにおいて最も実現可能な方向である可能性が高い。ただし、生成解像度の向上に関する進展は、データ品質とトレーニングコストのために比較的遅れている。チューニング不要の解像度外挿は、代替手段として提示されているが、現在の手法はしばしば生成安定性を低下させ、実用的な適用を制限している。本論文では、既存の解像度外挿手法を検討し、Text-to-Image RFTsの解像度潜在能力を最大化するためのI-Maxフレームワークを紹介する。I-Maxには以下の特徴がある:(i)安定した外挿のための新しいProjected Flow戦略、および(ii)モデル知識を高解像度に一般化するための高度な推論ツールキット。Lumina-Next-2KおよびFlux.1-devを用いた実験は、I-Maxが解像度外挿における安定性を向上させ、画像の詳細な出現とアーティファクトの修正をもたらす能力を示し、チューニング不要の解像度外挿の実用的な価値を確認している。
English
Rectified Flow Transformers (RFTs) offer superior training and inference
efficiency, making them likely the most viable direction for scaling up
diffusion models. However, progress in generation resolution has been
relatively slow due to data quality and training costs. Tuning-free resolution
extrapolation presents an alternative, but current methods often reduce
generative stability, limiting practical application. In this paper, we review
existing resolution extrapolation methods and introduce the I-Max framework to
maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a
novel Projected Flow strategy for stable extrapolation and (ii) an advanced
inference toolkit for generalizing model knowledge to higher resolutions.
Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to
enhance stability in resolution extrapolation and show that it can bring image
detail emergence and artifact correction, confirming the practical value of
tuning-free resolution extrapolation.Summary
AI-Generated Summary