Más grande no siempre es mejor: Propiedades de escalabilidad en modelos de difusión latente
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
April 1, 2024
Autores: Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
cs.AI
Resumen
Estudiamos las propiedades de escalabilidad de los modelos de difusión latente (LDMs, por sus siglas en inglés) con un enfoque en su eficiencia de muestreo. Si bien las mejoras en la arquitectura de redes y los algoritmos de inferencia han demostrado aumentar efectivamente la eficiencia de muestreo de los modelos de difusión, el papel del tamaño del modelo —un factor crítico que determina dicha eficiencia— no ha sido examinado a fondo. A través de un análisis empírico de modelos de difusión establecidos para la generación de imágenes a partir de texto, llevamos a cabo una investigación profunda sobre cómo el tamaño del modelo influye en la eficiencia de muestreo en diferentes pasos de muestreo. Nuestros hallazgos revelan una tendencia sorprendente: cuando se opera con un presupuesto de inferencia dado, los modelos más pequeños frecuentemente superan a sus equivalentes más grandes en la generación de resultados de alta calidad. Además, extendemos nuestro estudio para demostrar la generalización de estos hallazgos al aplicar diversos muestreadores de difusión, explorar diversas tareas posteriores, evaluar modelos post-distilados, así como comparar el rendimiento en relación con el cómputo de entrenamiento. Estos descubrimientos abren nuevas vías para el desarrollo de estrategias de escalabilidad de LDMs que pueden emplearse para mejorar las capacidades generativas dentro de presupuestos de inferencia limitados.
English
We study the scaling properties of latent diffusion models (LDMs) with an
emphasis on their sampling efficiency. While improved network architecture and
inference algorithms have shown to effectively boost sampling efficiency of
diffusion models, the role of model size -- a critical determinant of sampling
efficiency -- has not been thoroughly examined. Through empirical analysis of
established text-to-image diffusion models, we conduct an in-depth
investigation into how model size influences sampling efficiency across varying
sampling steps. Our findings unveil a surprising trend: when operating under a
given inference budget, smaller models frequently outperform their larger
equivalents in generating high-quality results. Moreover, we extend our study
to demonstrate the generalizability of the these findings by applying various
diffusion samplers, exploring diverse downstream tasks, evaluating
post-distilled models, as well as comparing performance relative to training
compute. These findings open up new pathways for the development of LDM scaling
strategies which can be employed to enhance generative capabilities within
limited inference budgets.Summary
AI-Generated Summary