No Todos los Prompts Son Iguales: Poda Basada en Prompts de Modelos de Difusión de Texto a Imagen

Resumen

Los modelos de difusión de texto a imagen (T2I) han demostrado capacidades impresionantes en la generación de imágenes. Sin embargo, su intensidad computacional impide que organizaciones con recursos limitados implementen modelos T2I después de ajustarlos con sus datos internos objetivo. Si bien las técnicas de poda ofrecen una solución potencial para reducir la carga computacional de los modelos T2I, los métodos de poda estática utilizan el mismo modelo podado para todas las indicaciones de entrada, ignorando los requisitos de capacidad variables de diferentes indicaciones. La poda dinámica aborda este problema utilizando una subred separada para cada indicación, pero impide el paralelismo por lotes en las GPU. Para superar estas limitaciones, presentamos la Poda Adaptativa Personalizada por Indicación (APTP), un novedoso método de poda basado en indicaciones diseñado para modelos de difusión T2I. El núcleo de nuestro enfoque es un modelo enrutador de indicaciones, que aprende a determinar la capacidad requerida para una indicación de texto de entrada y la dirige a un código de arquitectura, dado un presupuesto computacional total deseado para las indicaciones. Cada código de arquitectura representa un modelo especializado adaptado a las indicaciones asignadas a él, y el número de códigos es un hiperparámetro. Entrenamos el enrutador de indicaciones y los códigos de arquitectura utilizando aprendizaje contrastivo, asegurando que indicaciones similares se asignen a códigos cercanos. Además, empleamos transporte óptimo para evitar que los códigos colapsen en uno solo. Demostramos la efectividad de APTP podando Stable Diffusion (SD) V2.1 utilizando CC3M y COCO como conjuntos de datos objetivo. APTP supera a los baselines de poda de un solo modelo en términos de puntuaciones FID, CLIP y CMMD. Nuestro análisis de los clústeres aprendidos por APTP revela que son semánticamente significativos. También mostramos que APTP puede descubrir automáticamente indicaciones previamente identificadas como desafiantes para SD, por ejemplo, indicaciones para generar imágenes de texto, asignándolas a códigos de mayor capacidad.

English

Text-to-image (T2I) diffusion models have demonstrated impressive image generation capabilities. Still, their computational intensity prohibits resource-constrained organizations from deploying T2I models after fine-tuning them on their internal target data. While pruning techniques offer a potential solution to reduce the computational burden of T2I models, static pruning methods use the same pruned model for all input prompts, overlooking the varying capacity requirements of different prompts. Dynamic pruning addresses this issue by utilizing a separate sub-network for each prompt, but it prevents batch parallelism on GPUs. To overcome these limitations, we introduce Adaptive Prompt-Tailored Pruning (APTP), a novel prompt-based pruning method designed for T2I diffusion models. Central to our approach is a prompt router model, which learns to determine the required capacity for an input text prompt and routes it to an architecture code, given a total desired compute budget for prompts. Each architecture code represents a specialized model tailored to the prompts assigned to it, and the number of codes is a hyperparameter. We train the prompt router and architecture codes using contrastive learning, ensuring that similar prompts are mapped to nearby codes. Further, we employ optimal transport to prevent the codes from collapsing into a single one. We demonstrate APTP's effectiveness by pruning Stable Diffusion (SD) V2.1 using CC3M and COCO as target datasets. APTP outperforms the single-model pruning baselines in terms of FID, CLIP, and CMMD scores. Our analysis of the clusters learned by APTP reveals they are semantically meaningful. We also show that APTP can automatically discover previously empirically found challenging prompts for SD, e.g., prompts for generating text images, assigning them to higher capacity codes.

No Todos los Prompts Son Iguales: Poda Basada en Prompts de Modelos de Difusión de Texto a Imagen

Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

Resumen

Support