DDT: Декомбинированный диффузионный трансформерDDT: Decoupled Diffusion Transformer
Диффузионные трансформеры продемонстрировали выдающееся качество генерации, хотя и требуют более длительных итераций обучения и множества шагов вывода. На каждом шаге удаления шума диффузионные трансформеры кодируют зашумленные входные данные для извлечения низкочастотной семантической составляющей, а затем декодируют высокочастотную составляющую с использованием идентичных модулей. Эта схема создает внутреннюю оптимизационную дилемму: кодирование низкочастотной семантики требует уменьшения высокочастотных компонентов, что создает напряжение между семантическим кодированием и высокочастотным декодированием. Для решения этой проблемы мы предлагаем новый \color{ddtD}разделенный \color{ddtD}диффузионный \color{ddtT}трансформер~(\color{ddtDDT}), с разделенной архитектурой, включающей выделенный кодировщик условий для извлечения семантики и специализированный декодировщик скорости. Наши эксперименты показывают, что более мощный кодировщик приводит к улучшению производительности с увеличением размера модели. Для ImageNet 256×256 наш DDT-XL/2 достигает нового рекордного показателя {1.31 FID}~(почти в 4 раза быстрее сходимости обучения по сравнению с предыдущими диффузионными трансформерами). Для ImageNet 512×512 наш DDT-XL/2 достигает нового рекордного FID 1.28. Кроме того, как полезный побочный эффект, наша разделенная архитектура повышает скорость вывода за счет возможности совместного использования самокондиционирования между соседними шагами удаления шума. Для минимизации снижения производительности мы предлагаем новый подход статистического динамического программирования для определения оптимальных стратегий совместного использования.