Plus grand n'est pas toujours mieux : Propriétés de mise à l'échelle des modèles de diffusion latente
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
April 1, 2024
papers.authors: Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
cs.AI
papers.abstract
Nous étudions les propriétés de mise à l'échelle des modèles de diffusion latente (LDMs) en mettant l'accent sur leur efficacité d'échantillonnage. Bien que des améliorations de l'architecture des réseaux et des algorithmes d'inférence aient démontré leur capacité à accroître efficacement l'efficacité d'échantillonnage des modèles de diffusion, le rôle de la taille du modèle -- un déterminant critique de cette efficacité -- n'a pas été examiné de manière approfondie. À travers une analyse empirique de modèles établis de diffusion texte-image, nous menons une investigation détaillée sur la manière dont la taille du modèle influence l'efficacité d'échantillonnage à travers différents pas d'échantillonnage. Nos résultats révèlent une tendance surprenante : lorsqu'ils opèrent avec un budget d'inférence donné, les modèles plus petits surpassent fréquemment leurs équivalents plus grands dans la génération de résultats de haute qualité. De plus, nous étendons notre étude pour démontrer la généralisabilité de ces conclusions en appliquant divers échantillonneurs de diffusion, en explorant différentes tâches en aval, en évaluant des modèles post-distillés, ainsi qu'en comparant les performances par rapport au calcul d'entraînement. Ces découvertes ouvrent de nouvelles voies pour le développement de stratégies de mise à l'échelle des LDMs, qui peuvent être employées pour améliorer les capacités génératives dans des budgets d'inférence limités.
English
We study the scaling properties of latent diffusion models (LDMs) with an
emphasis on their sampling efficiency. While improved network architecture and
inference algorithms have shown to effectively boost sampling efficiency of
diffusion models, the role of model size -- a critical determinant of sampling
efficiency -- has not been thoroughly examined. Through empirical analysis of
established text-to-image diffusion models, we conduct an in-depth
investigation into how model size influences sampling efficiency across varying
sampling steps. Our findings unveil a surprising trend: when operating under a
given inference budget, smaller models frequently outperform their larger
equivalents in generating high-quality results. Moreover, we extend our study
to demonstrate the generalizability of the these findings by applying various
diffusion samplers, exploring diverse downstream tasks, evaluating
post-distilled models, as well as comparing performance relative to training
compute. These findings open up new pathways for the development of LDM scaling
strategies which can be employed to enhance generative capabilities within
limited inference budgets.