FlexiDiT: Il Tuo Trasformatore di Diffusione Può Generare Facilmente Campioni di Alta Qualità con Meno Calcolo
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute
February 27, 2025
Autori: Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld
cs.AI
Abstract
Nonostante le loro prestazioni notevoli, i moderni Diffusion Transformers sono limitati da requisiti di risorse sostanziali durante l'inferenza, derivanti dalla quantità fissa e ampia di calcolo necessaria per ogni fase di denoising. In questo lavoro, rivediamo il paradigma statico convenzionale che assegna un budget di calcolo fisso per ogni iterazione di denoising e proponiamo invece una strategia dinamica. Il nostro framework semplice ed efficiente dal punto di vista dei campioni consente di convertire modelli DiT pre-addestrati in modelli flessibili — denominati FlexiDiT — permettendo loro di elaborare input con budget di calcolo variabili. Dimostriamo come un singolo modello flessibile possa generare immagini senza alcuna riduzione della qualità, riducendo i FLOP richiesti di oltre il 40% rispetto alle loro controparti statiche, sia per la generazione di immagini condizionate da classi che da testo. Il nostro metodo è generale e agnostico rispetto alle modalità di input e condizionamento. Mostriamo come il nostro approccio possa essere facilmente esteso per la generazione di video, dove i modelli FlexiDiT generano campioni con fino al 75% in meno di calcolo senza compromettere le prestazioni.
English
Despite their remarkable performance, modern Diffusion Transformers are
hindered by substantial resource requirements during inference, stemming from
the fixed and large amount of compute needed for each denoising step. In this
work, we revisit the conventional static paradigm that allocates a fixed
compute budget per denoising iteration and propose a dynamic strategy instead.
Our simple and sample-efficient framework enables pre-trained DiT models to be
converted into flexible ones -- dubbed FlexiDiT -- allowing them to
process inputs at varying compute budgets. We demonstrate how a single
flexible model can generate images without any drop in quality, while
reducing the required FLOPs by more than 40\% compared to their static
counterparts, for both class-conditioned and text-conditioned image generation.
Our method is general and agnostic to input and conditioning modalities. We
show how our approach can be readily extended for video generation, where
FlexiDiT models generate samples with up to 75\% less compute without
compromising performance.Summary
AI-Generated Summary