Больше не всегда лучше: Свойства масштабирования латентных моделей диффузии
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
April 1, 2024
Авторы: Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
cs.AI
Аннотация
Мы изучаем свойства масштабирования моделей латентной диффузии (LDM) с акцентом на их эффективность выборки. Хотя улучшенная архитектура сети и алгоритмы вывода показали свою способность эффективно увеличивать эффективность выборки моделей диффузии, роль размера модели - критического определителя эффективности выборки - не была тщательно изучена. Через эмпирический анализ установленных моделей диффузии текста в изображение мы проводим глубокое исследование влияния размера модели на эффективность выборки при различных шагах выборки. Наши результаты раскрывают удивительную тенденцию: при работе в рамках заданного бюджета вывода, более маленькие модели часто превосходят своих более крупных эквивалентов в генерации результатов высокого качества. Более того, мы расширяем наше исследование для демонстрации обобщаемости этих результатов путем применения различных сэмплеров диффузии, исследования различных последующих задач, оценки пост-дистиллированных моделей, а также сравнения производительности относительно обучающего вычисления. Эти результаты открывают новые пути для развития стратегий масштабирования LDM, которые могут быть использованы для улучшения генеративных возможностей в рамках ограниченных бюджетов вывода.
English
We study the scaling properties of latent diffusion models (LDMs) with an
emphasis on their sampling efficiency. While improved network architecture and
inference algorithms have shown to effectively boost sampling efficiency of
diffusion models, the role of model size -- a critical determinant of sampling
efficiency -- has not been thoroughly examined. Through empirical analysis of
established text-to-image diffusion models, we conduct an in-depth
investigation into how model size influences sampling efficiency across varying
sampling steps. Our findings unveil a surprising trend: when operating under a
given inference budget, smaller models frequently outperform their larger
equivalents in generating high-quality results. Moreover, we extend our study
to demonstrate the generalizability of the these findings by applying various
diffusion samplers, exploring diverse downstream tasks, evaluating
post-distilled models, as well as comparing performance relative to training
compute. These findings open up new pathways for the development of LDM scaling
strategies which can be employed to enhance generative capabilities within
limited inference budgets.