DDiT: Динамическое планирование патчей для эффективных диффузионных трансформеров

Аннотация

Диффузионные транссформеры (DiT) достигли наилучших результатов в генерации изображений и видео, однако их успех сопряжен с высокими вычислительными затратами. Эта неэффективность во многом обусловлена фиксированным процессом токенизации, который использует патчи постоянного размера на протяжении всей фазы денойзинга, независимо от сложности контента. Мы предлагаем динамическую токенизацию — эффективную стратегию на этапе тестирования, которая варьирует размеры патчей в зависимости от сложности контента и временного шага денойзинга. Наше ключевое наблюдение заключается в том, что на ранних шагах достаточно более крупных патчей для моделирования глобальной структуры, тогда как на поздних итерациях требуются более мелкие патчи для проработки локальных деталей. Во время вывода наш метод динамически перераспределяет размеры патчей между шагами денойзинга для генерации изображений и видео, что существенно снижает затраты при сохранении перцептивного качества генерации. Многочисленные эксперименты демонстрируют эффективность нашего подхода: он обеспечивает ускорение до 3,52× и 3,2× на моделях FLUX-1.Dev и Wan 2.1 соответственно, без ущерба для качества генерации и соответствия промпту.

English

Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to 3.52times and 3.2times speedup on FLUX-1.Dev and Wan 2.1, respectively, without compromising the generation quality and prompt adherence.

DDiT: Динамическое планирование патчей для эффективных диффузионных трансформеров

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Аннотация

Support