FlexiDiT: 당신의 디퓨전 트랜스포머가 더 적은 컴퓨팅 자원으로도 고품질 샘플을 쉽게 생성할 수 있습니다
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute
February 27, 2025
저자: Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld
cs.AI
초록
현대의 Diffusion Transformer는 놀라운 성능을 보이지만, 각 노이즈 제거 단계마다 고정적이고 많은 양의 계산이 필요하기 때문에 추론 과정에서 상당한 자원을 요구한다는 한계가 있습니다. 본 연구에서는 노이즈 제거 반복마다 고정된 계산 예산을 할당하는 기존의 정적 패러다임을 재검토하고, 대신 동적 전략을 제안합니다. 우리의 간단하고 샘플 효율적인 프레임워크는 사전 훈련된 DiT 모델을 유연한 모델로 변환할 수 있게 합니다. 이를 FlexiDiT라고 명명한 이 모델은 다양한 계산 예산에서 입력을 처리할 수 있습니다. 우리는 단일 유연 모델이 품질 저하 없이 이미지를 생성할 수 있음을 보여주며, 클래스 조건 및 텍스트 조건 이미지 생성 모두에서 정적 모델 대비 40% 이상의 FLOPs를 줄일 수 있음을 입증합니다. 우리의 방법은 일반적이며 입력 및 조건 방식에 구애받지 않습니다. 또한, 이 접근법이 비디오 생성으로 쉽게 확장될 수 있음을 보여주며, FlexiDiT 모델은 성능 저하 없이 최대 75% 적은 계산으로 샘플을 생성할 수 있습니다.
English
Despite their remarkable performance, modern Diffusion Transformers are
hindered by substantial resource requirements during inference, stemming from
the fixed and large amount of compute needed for each denoising step. In this
work, we revisit the conventional static paradigm that allocates a fixed
compute budget per denoising iteration and propose a dynamic strategy instead.
Our simple and sample-efficient framework enables pre-trained DiT models to be
converted into flexible ones -- dubbed FlexiDiT -- allowing them to
process inputs at varying compute budgets. We demonstrate how a single
flexible model can generate images without any drop in quality, while
reducing the required FLOPs by more than 40\% compared to their static
counterparts, for both class-conditioned and text-conditioned image generation.
Our method is general and agnostic to input and conditioning modalities. We
show how our approach can be readily extended for video generation, where
FlexiDiT models generate samples with up to 75\% less compute without
compromising performance.Summary
AI-Generated Summary