ChatPaper.aiChatPaper

DDT: Декомбинированный диффузионный трансформер

DDT: Decoupled Diffusion Transformer

April 8, 2025
Авторы: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI

Аннотация

Диффузионные трансформеры продемонстрировали выдающееся качество генерации, хотя и требуют более длительных итераций обучения и множества шагов вывода. На каждом шаге удаления шума диффузионные трансформеры кодируют зашумленные входные данные для извлечения низкочастотной семантической составляющей, а затем декодируют высокочастотную составляющую с использованием идентичных модулей. Эта схема создает внутреннюю оптимизационную дилемму: кодирование низкочастотной семантики требует уменьшения высокочастотных компонентов, что создает напряжение между семантическим кодированием и высокочастотным декодированием. Для решения этой проблемы мы предлагаем новый \color{ddtD}разделенный \color{ddtD}диффузионный \color{ddtT}трансформер~(\color{ddtDDT}), с разделенной архитектурой, включающей выделенный кодировщик условий для извлечения семантики и специализированный декодировщик скорости. Наши эксперименты показывают, что более мощный кодировщик приводит к улучшению производительности с увеличением размера модели. Для ImageNet 256×256 наш DDT-XL/2 достигает нового рекордного показателя {1.31 FID}~(почти в 4 раза быстрее сходимости обучения по сравнению с предыдущими диффузионными трансформерами). Для ImageNet 512×512 наш DDT-XL/2 достигает нового рекордного FID 1.28. Кроме того, как полезный побочный эффект, наша разделенная архитектура повышает скорость вывода за счет возможности совместного использования самокондиционирования между соседними шагами удаления шума. Для минимизации снижения производительности мы предлагаем новый подход статистического динамического программирования для определения оптимальных стратегий совместного использования.
English
Diffusion transformers have demonstrated remarkable generation quality, albeit requiring longer training iterations and numerous inference steps. In each denoising step, diffusion transformers encode the noisy inputs to extract the lower-frequency semantic component and then decode the higher frequency with identical modules. This scheme creates an inherent optimization dilemma: encoding low-frequency semantics necessitates reducing high-frequency components, creating tension between semantic encoding and high-frequency decoding. To resolve this challenge, we propose a new \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled design of a dedicated condition encoder for semantic extraction alongside a specialized velocity decoder. Our experiments reveal that a more substantial encoder yields performance improvements as model size increases. For ImageNet 256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of {1.31 FID}~(nearly 4times faster training convergence compared to previous diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our decoupled architecture enhances inference speed by enabling the sharing self-condition between adjacent denoising steps. To minimize performance degradation, we propose a novel statistical dynamic programming approach to identify optimal sharing strategies.

Summary

AI-Generated Summary

PDF733April 10, 2025