Groter is niet altijd beter: Schaalbaarheidseigenschappen van Latente Diffusiemodellen
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
April 1, 2024
Auteurs: Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
cs.AI
Samenvatting
We bestuderen de schaaleigenschappen van latente diffusiemodellen (LDMs) met een nadruk op hun samplingefficiëntie. Hoewel verbeterde netwerkarchitecturen en inferentie-algoritmen effectief hebben aangetoond de samplingefficiëntie van diffusiemodellen te verhogen, is de rol van modelgrootte -- een cruciale bepalende factor voor samplingefficiëntie -- nog niet grondig onderzocht. Door middel van empirische analyse van gevestigde tekst-naar-beeld diffusiemodellen, voeren we een diepgaand onderzoek uit naar hoe modelgrootte de samplingefficiëntie beïnvloedt bij verschillende samplingstappen. Onze bevindingen onthullen een verrassende trend: wanneer er wordt gewerkt binnen een bepaald inferentiebudget, presteren kleinere modellen vaak beter dan hun grotere tegenhangers in het genereren van hoogwaardige resultaten. Bovendien breiden we onze studie uit om de generaliseerbaarheid van deze bevindingen aan te tonen door verschillende diffusiesamplers toe te passen, diverse downstreamtaken te verkennen, post-gedistilleerde modellen te evalueren, en prestaties te vergelijken ten opzichte van trainingsrekenkracht. Deze bevindingen openen nieuwe wegen voor de ontwikkeling van LDM-schaalstrategieën die kunnen worden ingezet om generatieve capaciteiten te verbeteren binnen beperkte inferentiebudgetten.
English
We study the scaling properties of latent diffusion models (LDMs) with an
emphasis on their sampling efficiency. While improved network architecture and
inference algorithms have shown to effectively boost sampling efficiency of
diffusion models, the role of model size -- a critical determinant of sampling
efficiency -- has not been thoroughly examined. Through empirical analysis of
established text-to-image diffusion models, we conduct an in-depth
investigation into how model size influences sampling efficiency across varying
sampling steps. Our findings unveil a surprising trend: when operating under a
given inference budget, smaller models frequently outperform their larger
equivalents in generating high-quality results. Moreover, we extend our study
to demonstrate the generalizability of the these findings by applying various
diffusion samplers, exploring diverse downstream tasks, evaluating
post-distilled models, as well as comparing performance relative to training
compute. These findings open up new pathways for the development of LDM scaling
strategies which can be employed to enhance generative capabilities within
limited inference budgets.