Più grande non è sempre meglio: Proprietà di scalabilità dei modelli di diffusione latente
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
April 1, 2024
Autori: Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
cs.AI
Abstract
Studiamo le proprietà di scalabilità dei modelli di diffusione latente (LDM) con un'enfasi sulla loro efficienza di campionamento. Sebbene miglioramenti nell'architettura di rete e negli algoritmi di inferenza abbiano dimostrato di aumentare efficacemente l'efficienza di campionamento dei modelli di diffusione, il ruolo della dimensione del modello -- un fattore critico per l'efficienza di campionamento -- non è stato esaminato approfonditamente. Attraverso un'analisi empirica di modelli di diffusione testo-immagine consolidati, conduciamo un'indagine dettagliata su come la dimensione del modello influenzi l'efficienza di campionamento al variare dei passi di campionamento. Le nostre scoperte rivelano una tendenza sorprendente: quando operano con un budget di inferenza dato, modelli più piccoli spesso superano le loro controparti più grandi nella generazione di risultati di alta qualità. Inoltre, estendiamo il nostro studio per dimostrare la generalizzabilità di questi risultati applicando vari campionatori di diffusione, esplorando diverse attività downstream, valutando modelli post-distillati e confrontando le prestazioni relative al calcolo di addestramento. Questi risultati aprono nuove strade per lo sviluppo di strategie di scalabilità dei LDM che possono essere impiegate per migliorare le capacità generative entro budget di inferenza limitati.
English
We study the scaling properties of latent diffusion models (LDMs) with an
emphasis on their sampling efficiency. While improved network architecture and
inference algorithms have shown to effectively boost sampling efficiency of
diffusion models, the role of model size -- a critical determinant of sampling
efficiency -- has not been thoroughly examined. Through empirical analysis of
established text-to-image diffusion models, we conduct an in-depth
investigation into how model size influences sampling efficiency across varying
sampling steps. Our findings unveil a surprising trend: when operating under a
given inference budget, smaller models frequently outperform their larger
equivalents in generating high-quality results. Moreover, we extend our study
to demonstrate the generalizability of the these findings by applying various
diffusion samplers, exploring diverse downstream tasks, evaluating
post-distilled models, as well as comparing performance relative to training
compute. These findings open up new pathways for the development of LDM scaling
strategies which can be employed to enhance generative capabilities within
limited inference budgets.