ChatPaper.aiChatPaper

DDiT: 효율적인 Diffusion Transformer를 위한 동적 패치 스케줄링

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

February 19, 2026
저자: Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde
cs.AI

초록

확산 트랜스포머(DiT)는 이미지 및 동영상 생성 분야에서 최첨단 성능을 달성했지만, 그 성공은 높은 계산 비용을 수반합니다. 이러한 비효율성은 주로 콘텐츠의 복잡성에 관계없이 전체 잡음 제거 단계에 걸쳐 일정한 크기의 패치를 사용하는 고정된 토큰화 과정 때문입니다. 본 논문에서는 콘텐츠 복잡성과 잡음 제거 시간 스텝에 따라 패치 크기를 가변적으로 조절하는 효율적인 추론 시 전략인 동적 토큰화를 제안합니다. 우리의 핵심 통찰은 초기 시간 스텝에서는 전역 구조를 모델링하기 위해 더 거친 패치만 필요하지만, 후반부 반복에서는 지역적 세부 사항을 정교화하기 위해 더 미세한(더 작은 크기의) 패치가 필요하다는 점입니다. 추론 과정에서 우리의 방법은 이미지 및 동영상 생성을 위한 잡음 제거 단계 전반에 걸쳐 패치 크기를 동적으로 재배분하여 지각적 생성 품질을 유지하면서도 비용을 크게 절감합니다. 광범위한 실험을 통해 우리 접근법의 효과를 입증했습니다: FLUX-1.Dev과 Wan 2.1에서 각각 최대 3.52배 및 3.2배의 속도 향상을 달성하면서도 생성 품질과 프롬프트 준수도를 저하시키지 않았습니다.
English
Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to 3.52times and 3.2times speedup on FLUX-1.Dev and Wan 2.1, respectively, without compromising the generation quality and prompt adherence.
PDF92February 21, 2026