Niet Alle Prompts Zijn Gelijk: Prompt-gebaseerd Snoeien van Text-to-Image Diffusiemodellen

Samenvatting

Text-to-image (T2I) diffusiemodellen hebben indrukwekkende beeldgeneratiecapaciteiten getoond. Toch verhindert hun rekenintensiteit dat organisaties met beperkte middelen T2I-modellen kunnen inzetten na het finetunen op hun interne doeldataset. Hoewel pruningtechnieken een mogelijke oplossing bieden om de rekenlast van T2I-modellen te verminderen, gebruiken statische pruningmethoden hetzelfde geprunte model voor alle invoerprompts, wat de variërende capaciteitsbehoeften van verschillende prompts over het hoofd ziet. Dynamisch pruning lost dit probleem op door voor elke prompt een apart subnetwerk te gebruiken, maar dit belemmert batchparallelisme op GPU's. Om deze beperkingen te overwinnen, introduceren we Adaptive Prompt-Tailored Pruning (APTP), een nieuwe prompt-gebaseerde pruningmethode ontworpen voor T2I-diffusiemodellen. Centraal in onze aanpak staat een promptroutermodel, dat leert om de benodigde capaciteit voor een invoertekstprompt te bepalen en deze door te sturen naar een architectuurcode, gegeven een totaal gewenst rekenbudget voor prompts. Elke architectuurcode vertegenwoordigt een gespecialiseerd model dat is afgestemd op de prompts die eraan zijn toegewezen, en het aantal codes is een hyperparameter. We trainen de promptrouter en de architectuurcodes met contrastief leren, zodat vergelijkbare prompts worden toegewezen aan nabijgelegen codes. Verder gebruiken we optimaal transport om te voorkomen dat de codes samenvallen in één enkele code. We demonstreren de effectiviteit van APTP door Stable Diffusion (SD) V2.1 te prunen met CC3M en COCO als doeldatasets. APTP presteert beter dan de single-model pruning-baselines in termen van FID, CLIP en CMMD-scores. Onze analyse van de door APTP geleerde clusters laat zien dat ze semantisch betekenisvol zijn. We tonen ook aan dat APTP automatisch eerder empirisch gevonden uitdagende prompts voor SD kan ontdekken, zoals prompts voor het genereren van tekstbeelden, en deze toewijst aan codes met een hogere capaciteit.

English

Text-to-image (T2I) diffusion models have demonstrated impressive image generation capabilities. Still, their computational intensity prohibits resource-constrained organizations from deploying T2I models after fine-tuning them on their internal target data. While pruning techniques offer a potential solution to reduce the computational burden of T2I models, static pruning methods use the same pruned model for all input prompts, overlooking the varying capacity requirements of different prompts. Dynamic pruning addresses this issue by utilizing a separate sub-network for each prompt, but it prevents batch parallelism on GPUs. To overcome these limitations, we introduce Adaptive Prompt-Tailored Pruning (APTP), a novel prompt-based pruning method designed for T2I diffusion models. Central to our approach is a prompt router model, which learns to determine the required capacity for an input text prompt and routes it to an architecture code, given a total desired compute budget for prompts. Each architecture code represents a specialized model tailored to the prompts assigned to it, and the number of codes is a hyperparameter. We train the prompt router and architecture codes using contrastive learning, ensuring that similar prompts are mapped to nearby codes. Further, we employ optimal transport to prevent the codes from collapsing into a single one. We demonstrate APTP's effectiveness by pruning Stable Diffusion (SD) V2.1 using CC3M and COCO as target datasets. APTP outperforms the single-model pruning baselines in terms of FID, CLIP, and CMMD scores. Our analysis of the clusters learned by APTP reveals they are semantically meaningful. We also show that APTP can automatically discover previously empirically found challenging prompts for SD, e.g., prompts for generating text images, assigning them to higher capacity codes.

Niet Alle Prompts Zijn Gelijk: Prompt-gebaseerd Snoeien van Text-to-Image Diffusiemodellen

Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

Samenvatting

Support