ChatPaper.aiChatPaper

Масштабирование трансформеров диффузии до 16 миллиардов параметров

Scaling Diffusion Transformers to 16 Billion Parameters

July 16, 2024
Авторы: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang
cs.AI

Аннотация

В данной статье мы представляем DiT-MoE, разреженную версию диффузионного трансформера, которая масштабируема и конкурентоспособна по сравнению с плотными сетями, обладая высокооптимизированным выводом. DiT-MoE включает два простых дизайна: общую маршрутизацию экспертов и потерю баланса на уровне экспертов, тем самым захватывая общие знания и уменьшая избыточность среди различных маршрутизированных экспертов. При применении к условному созданию изображений глубокий анализ специализации экспертов приводит к нескольким интересным наблюдениям: (i) Выбор эксперта проявляет предпочтение к пространственному положению и шагу времени шумоподавления, при этом нечувствителен к различной классовой условной информации; (ii) По мере углубления слоев MoE, выбор экспертов постепенно смещается от конкретного пространственного положения к дисперсии и балансу. (iii) Специализация экспертов имеет тенденцию быть более сосредоточенной на раннем временном шаге, а затем постепенно становится равномерной после середины. Мы связываем это с процессом диффузии, который сначала моделирует низкочастотную пространственную информацию, а затем высокочастотную сложную информацию. Основываясь на вышеуказанных рекомендациях, ряд экспериментов с DiT-MoE экспериментально достигает производительности на уровне плотных сетей, требуя при этом значительно меньше вычислительной нагрузки во время вывода. Более того, мы продемонстрировали потенциал DiT-MoE на синтезированных изображениях, масштабируя модель диффузии на 16,5 млрд параметров, что дает новый показатель FID-50K в размере 1,80 в настройках разрешения 512х512. Страница проекта: https://github.com/feizc/DiT-MoE.
English
In this paper, we present DiT-MoE, a sparse version of the diffusion Transformer, that is scalable and competitive with dense networks while exhibiting highly optimized inference. The DiT-MoE includes two simple designs: shared expert routing and expert-level balance loss, thereby capturing common knowledge and reducing redundancy among the different routed experts. When applied to conditional image generation, a deep analysis of experts specialization gains some interesting observations: (i) Expert selection shows preference with spatial position and denoising time step, while insensitive with different class-conditional information; (ii) As the MoE layers go deeper, the selection of experts gradually shifts from specific spacial position to dispersion and balance. (iii) Expert specialization tends to be more concentrated at the early time step and then gradually uniform after half. We attribute it to the diffusion process that first models the low-frequency spatial information and then high-frequency complex information. Based on the above guidance, a series of DiT-MoE experimentally achieves performance on par with dense networks yet requires much less computational load during inference. More encouragingly, we demonstrate the potential of DiT-MoE with synthesized image data, scaling diffusion model at a 16.5B parameter that attains a new SoTA FID-50K score of 1.80 in 512times512 resolution settings. The project page: https://github.com/feizc/DiT-MoE.

Summary

AI-Generated Summary

PDF272November 28, 2024