FlexiDiT: Ihr Diffusion Transformer kann mühelos hochwertige Samples mit weniger Rechenleistung erzeugen
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute
February 27, 2025
Autoren: Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld
cs.AI
Zusammenfassung
Trotz ihrer bemerkenswerten Leistung werden moderne Diffusion Transformers durch erhebliche Ressourcenanforderungen während der Inferenz behindert, die sich aus dem festen und großen Rechenaufwand für jeden Denoising-Schritt ergeben. In dieser Arbeit überdenken wir das konventionelle statische Paradigma, das ein festes Rechenbudget pro Denoising-Iteration vorsieht, und schlagen stattdessen eine dynamische Strategie vor. Unser einfaches und probeneffizientes Framework ermöglicht es, vortrainierte DiT-Modelle in flexible Modelle – genannt FlexiDiT – umzuwandeln, die es ihnen erlauben, Eingaben mit variierenden Rechenbudgets zu verarbeiten. Wir zeigen, wie ein einziges flexibles Modell Bilder ohne Qualitätseinbußen erzeugen kann, während der erforderliche FLOP-Aufwand im Vergleich zu ihren statischen Gegenstücken um mehr als 40\% reduziert wird, sowohl für klassen- als auch für textkonditionierte Bildgenerierung. Unsere Methode ist allgemein und unabhängig von Eingabe- und Konditionierungsmodalitäten. Wir zeigen, wie unser Ansatz problemlos auf die Videogenerierung erweitert werden kann, wobei FlexiDiT-Modelle Proben mit bis zu 75\% weniger Rechenaufwand erzeugen, ohne die Leistung zu beeinträchtigen.
English
Despite their remarkable performance, modern Diffusion Transformers are
hindered by substantial resource requirements during inference, stemming from
the fixed and large amount of compute needed for each denoising step. In this
work, we revisit the conventional static paradigm that allocates a fixed
compute budget per denoising iteration and propose a dynamic strategy instead.
Our simple and sample-efficient framework enables pre-trained DiT models to be
converted into flexible ones -- dubbed FlexiDiT -- allowing them to
process inputs at varying compute budgets. We demonstrate how a single
flexible model can generate images without any drop in quality, while
reducing the required FLOPs by more than 40\% compared to their static
counterparts, for both class-conditioned and text-conditioned image generation.
Our method is general and agnostic to input and conditioning modalities. We
show how our approach can be readily extended for video generation, where
FlexiDiT models generate samples with up to 75\% less compute without
compromising performance.Summary
AI-Generated Summary