ChatPaper.aiChatPaper

I-Max: 事前学習されたRectified Flow Transformersの解像度ポテンシャルをProjected Flowで最大化

I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

October 10, 2024
著者: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao
cs.AI

要旨

Rectified Flow Transformers(RFTs)は、優れたトレーニングおよび推論効率を提供し、拡散モデルのスケーリングアップにおいて最も実現可能な方向である可能性が高い。ただし、生成解像度の向上に関する進展は、データ品質とトレーニングコストのために比較的遅れている。チューニング不要の解像度外挿は、代替手段として提示されているが、現在の手法はしばしば生成安定性を低下させ、実用的な適用を制限している。本論文では、既存の解像度外挿手法を検討し、Text-to-Image RFTsの解像度潜在能力を最大化するためのI-Maxフレームワークを紹介する。I-Maxには以下の特徴がある:(i)安定した外挿のための新しいProjected Flow戦略、および(ii)モデル知識を高解像度に一般化するための高度な推論ツールキット。Lumina-Next-2KおよびFlux.1-devを用いた実験は、I-Maxが解像度外挿における安定性を向上させ、画像の詳細な出現とアーティファクトの修正をもたらす能力を示し、チューニング不要の解像度外挿の実用的な価値を確認している。
English
Rectified Flow Transformers (RFTs) offer superior training and inference efficiency, making them likely the most viable direction for scaling up diffusion models. However, progress in generation resolution has been relatively slow due to data quality and training costs. Tuning-free resolution extrapolation presents an alternative, but current methods often reduce generative stability, limiting practical application. In this paper, we review existing resolution extrapolation methods and introduce the I-Max framework to maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a novel Projected Flow strategy for stable extrapolation and (ii) an advanced inference toolkit for generalizing model knowledge to higher resolutions. Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to enhance stability in resolution extrapolation and show that it can bring image detail emergence and artifact correction, confirming the practical value of tuning-free resolution extrapolation.

Summary

AI-Generated Summary

PDF52November 16, 2024