FlexiDiT:あなたのDiffusion Transformerは、少ない計算量で高品質なサンプルを簡単に生成できます
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute
February 27, 2025
著者: Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld
cs.AI
要旨
その卓越した性能にもかかわらず、現代のDiffusion Transformerは、各ノイズ除去ステップに必要な固定かつ大量の計算量に起因し、推論時のリソース要求が非常に大きいという課題を抱えています。本研究では、ノイズ除去の各イテレーションに固定の計算予算を割り当てる従来の静的パラダイムを見直し、代わりに動的戦略を提案します。私たちのシンプルでサンプル効率の良いフレームワークにより、事前学習済みのDiTモデルを柔軟なモデル――FlexiDiTと名付けました――に変換し、様々な計算予算で入力を処理できるようにします。単一の柔軟なモデルが、クラス条件付きおよびテキスト条件付きの画像生成において、品質を損なうことなく画像を生成し、静的モデルと比較して必要なFLOPsを40%以上削減できることを実証します。私たちの手法は一般的であり、入力や条件付けのモダリティに依存しません。さらに、このアプローチが映像生成にも容易に拡張可能であることを示し、FlexiDiTモデルが性能を損なうことなく、最大75%少ない計算量でサンプルを生成できることを確認しました。
English
Despite their remarkable performance, modern Diffusion Transformers are
hindered by substantial resource requirements during inference, stemming from
the fixed and large amount of compute needed for each denoising step. In this
work, we revisit the conventional static paradigm that allocates a fixed
compute budget per denoising iteration and propose a dynamic strategy instead.
Our simple and sample-efficient framework enables pre-trained DiT models to be
converted into flexible ones -- dubbed FlexiDiT -- allowing them to
process inputs at varying compute budgets. We demonstrate how a single
flexible model can generate images without any drop in quality, while
reducing the required FLOPs by more than 40\% compared to their static
counterparts, for both class-conditioned and text-conditioned image generation.
Our method is general and agnostic to input and conditioning modalities. We
show how our approach can be readily extended for video generation, where
FlexiDiT models generate samples with up to 75\% less compute without
compromising performance.Summary
AI-Generated Summary