ChatPaper.aiChatPaper

FlexiDiT: Jouw Diffusie Transformer Kan Gemakkelijk Hoogwaardige Voorbeelden Genereren met Minder Berekeningen

FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute

February 27, 2025
Auteurs: Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld
cs.AI

Samenvatting

Ondanks hun opmerkelijke prestaties worden moderne Diffusion Transformers belemmerd door aanzienlijke resourcevereisten tijdens inferentie, voortkomend uit de vaste en grote hoeveelheid rekenkracht die nodig is voor elke denoising stap. In dit werk herzien we het conventionele statische paradigma dat een vast rekenbudget toewijst per denoising iteratie en stellen in plaats daarvan een dynamische strategie voor. Ons eenvoudige en sample-efficiënte raamwerk maakt het mogelijk om vooraf getrainde DiT-modellen om te zetten in flexibele modellen - genaamd FlexiDiT - waardoor ze inputs kunnen verwerken bij variërende rekenbudgetten. We tonen aan hoe een enkel flexibel model afbeeldingen kan genereren zonder enige kwaliteitsvermindering, terwijl de benodigde FLOPs met meer dan 40% worden verminderd in vergelijking met hun statische tegenhangers, zowel voor class-geconditioneerde als tekst-geconditioneerde beeldgeneratie. Onze methode is algemeen toepasbaar en onafhankelijk van input- en conditioneringmodaliteiten. We laten zien hoe onze benadering eenvoudig kan worden uitgebreid voor videogeneratie, waar FlexiDiT-modellen monsters genereren met tot wel 75% minder rekenkracht zonder prestatieverlies.
English
Despite their remarkable performance, modern Diffusion Transformers are hindered by substantial resource requirements during inference, stemming from the fixed and large amount of compute needed for each denoising step. In this work, we revisit the conventional static paradigm that allocates a fixed compute budget per denoising iteration and propose a dynamic strategy instead. Our simple and sample-efficient framework enables pre-trained DiT models to be converted into flexible ones -- dubbed FlexiDiT -- allowing them to process inputs at varying compute budgets. We demonstrate how a single flexible model can generate images without any drop in quality, while reducing the required FLOPs by more than 40\% compared to their static counterparts, for both class-conditioned and text-conditioned image generation. Our method is general and agnostic to input and conditioning modalities. We show how our approach can be readily extended for video generation, where FlexiDiT models generate samples with up to 75\% less compute without compromising performance.

Summary

AI-Generated Summary

PDF202February 28, 2025