ChatPaper.aiChatPaper

Groter is niet altijd beter: Schaalbaarheidseigenschappen van Latente Diffusiemodellen

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

April 1, 2024
Auteurs: Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
cs.AI

Samenvatting

We bestuderen de schaaleigenschappen van latente diffusiemodellen (LDMs) met een nadruk op hun samplingefficiëntie. Hoewel verbeterde netwerkarchitecturen en inferentie-algoritmen effectief hebben aangetoond de samplingefficiëntie van diffusiemodellen te verhogen, is de rol van modelgrootte -- een cruciale bepalende factor voor samplingefficiëntie -- nog niet grondig onderzocht. Door middel van empirische analyse van gevestigde tekst-naar-beeld diffusiemodellen, voeren we een diepgaand onderzoek uit naar hoe modelgrootte de samplingefficiëntie beïnvloedt bij verschillende samplingstappen. Onze bevindingen onthullen een verrassende trend: wanneer er wordt gewerkt binnen een bepaald inferentiebudget, presteren kleinere modellen vaak beter dan hun grotere tegenhangers in het genereren van hoogwaardige resultaten. Bovendien breiden we onze studie uit om de generaliseerbaarheid van deze bevindingen aan te tonen door verschillende diffusiesamplers toe te passen, diverse downstreamtaken te verkennen, post-gedistilleerde modellen te evalueren, en prestaties te vergelijken ten opzichte van trainingsrekenkracht. Deze bevindingen openen nieuwe wegen voor de ontwikkeling van LDM-schaalstrategieën die kunnen worden ingezet om generatieve capaciteiten te verbeteren binnen beperkte inferentiebudgetten.
English
We study the scaling properties of latent diffusion models (LDMs) with an emphasis on their sampling efficiency. While improved network architecture and inference algorithms have shown to effectively boost sampling efficiency of diffusion models, the role of model size -- a critical determinant of sampling efficiency -- has not been thoroughly examined. Through empirical analysis of established text-to-image diffusion models, we conduct an in-depth investigation into how model size influences sampling efficiency across varying sampling steps. Our findings unveil a surprising trend: when operating under a given inference budget, smaller models frequently outperform their larger equivalents in generating high-quality results. Moreover, we extend our study to demonstrate the generalizability of the these findings by applying various diffusion samplers, exploring diverse downstream tasks, evaluating post-distilled models, as well as comparing performance relative to training compute. These findings open up new pathways for the development of LDM scaling strategies which can be employed to enhance generative capabilities within limited inference budgets.
PDF221November 26, 2024