Maior nem Sempre é Melhor: Propriedades de Escala de Modelos de Difusão Latente
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
April 1, 2024
Autores: Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
cs.AI
Resumo
Estudamos as propriedades de escalonamento dos modelos de difusão latente (LDMs) com ênfase em sua eficiência de amostragem. Embora melhorias na arquitetura da rede e algoritmos de inferência tenham demonstrado aumentar efetivamente a eficiência de amostragem dos modelos de difusão, o papel do tamanho do modelo -- um determinante crítico da eficiência de amostragem -- não foi examinado de forma abrangente. Por meio de análises empíricas de modelos de difusão texto-imagem estabelecidos, conduzimos uma investigação detalhada sobre como o tamanho do modelo influencia a eficiência de amostragem em diferentes etapas de amostragem. Nossas descobertas revelam uma tendência surpreendente: ao operar com um orçamento de inferência fixo, modelos menores frequentemente superam seus equivalentes maiores na geração de resultados de alta qualidade. Além disso, estendemos nosso estudo para demonstrar a generalizabilidade desses achados, aplicando diversos amostradores de difusão, explorando diversas tarefas subsequentes, avaliando modelos pós-destilados, bem como comparando o desempenho em relação ao custo computacional de treinamento. Essas descobertas abrem novos caminhos para o desenvolvimento de estratégias de escalonamento de LDMs que podem ser empregadas para aprimorar capacidades generativas dentro de orçamentos limitados de inferência.
English
We study the scaling properties of latent diffusion models (LDMs) with an
emphasis on their sampling efficiency. While improved network architecture and
inference algorithms have shown to effectively boost sampling efficiency of
diffusion models, the role of model size -- a critical determinant of sampling
efficiency -- has not been thoroughly examined. Through empirical analysis of
established text-to-image diffusion models, we conduct an in-depth
investigation into how model size influences sampling efficiency across varying
sampling steps. Our findings unveil a surprising trend: when operating under a
given inference budget, smaller models frequently outperform their larger
equivalents in generating high-quality results. Moreover, we extend our study
to demonstrate the generalizability of the these findings by applying various
diffusion samplers, exploring diverse downstream tasks, evaluating
post-distilled models, as well as comparing performance relative to training
compute. These findings open up new pathways for the development of LDM scaling
strategies which can be employed to enhance generative capabilities within
limited inference budgets.