Over architecturale compressie van tekst-naar-beeld diffusiemodellen

Samenvatting

Uitzonderlijke tekst-naar-beeld (T2I) generatieresultaten van Stable Diffusion-modellen (SDM's) gaan gepaard met aanzienlijke rekenkundige eisen. Om dit probleem op te lossen, heeft recent onderzoek naar efficiënte SDM's prioriteit gegeven aan het verminderen van het aantal samplingstappen en het gebruik van netwerkquantisatie. In aanvulling op deze richtingen, benadrukt deze studie de kracht van klassieke architectuurcompressie voor algemene T2I-synthese door het introduceren van block-removed knowledge-distilled SDM's (BK-SDM's). We verwijderen verschillende residu- en aandachtblokken uit de U-Net van SDM's, wat resulteert in een reductie van meer dan 30% in het aantal parameters, MACs per samplingstap en latentie. We voeren distillatiegebaseerde voorafgaande training uit met slechts 0,22 miljoen LAION-paren (minder dan 0,1% van de volledige trainingsparen) op een enkele A100 GPU. Ondanks de beperkte trainingsmiddelen, kunnen onze compacte modellen het originele SDM imiteren door te profiteren van overgedragen kennis en behalen ze competitieve resultaten tegenover grotere modellen met miljarden parameters op de zero-shot MS-COCO benchmark. Bovendien demonstreren we de toepasbaarheid van onze lichtgewicht vooraf getrainde modellen in gepersonaliseerde generatie met DreamBooth-finetuning.

English

Exceptional text-to-image (T2I) generation results of Stable Diffusion models (SDMs) come with substantial computational demands. To resolve this issue, recent research on efficient SDMs has prioritized reducing the number of sampling steps and utilizing network quantization. Orthogonal to these directions, this study highlights the power of classical architectural compression for general-purpose T2I synthesis by introducing block-removed knowledge-distilled SDMs (BK-SDMs). We eliminate several residual and attention blocks from the U-Net of SDMs, obtaining over a 30% reduction in the number of parameters, MACs per sampling step, and latency. We conduct distillation-based pretraining with only 0.22M LAION pairs (fewer than 0.1% of the full training pairs) on a single A100 GPU. Despite being trained with limited resources, our compact models can imitate the original SDM by benefiting from transferred knowledge and achieve competitive results against larger multi-billion parameter models on the zero-shot MS-COCO benchmark. Moreover, we demonstrate the applicability of our lightweight pretrained models in personalized generation with DreamBooth finetuning.

Over architecturale compressie van tekst-naar-beeld diffusiemodellen

On Architectural Compression of Text-to-Image Diffusion Models

Samenvatting

Support