ChatPaper.aiChatPaper

Distilación Eficiente de Guía Libre de Clasificadores mediante Adaptadores

Efficient Distillation of Classifier-Free Guidance using Adapters

March 10, 2025
Autores: Cristian Perez Jensen, Seyedmorteza Sadat
cs.AI

Resumen

Si bien la guía sin clasificador (CFG, por sus siglas en inglés) es esencial para los modelos de difusión condicional, duplica el número de evaluaciones de funciones neuronales (NFEs, por sus siglas en inglés) por paso de inferencia. Para mitigar esta ineficiencia, introducimos la destilación de guía mediante adaptadores (AGD, por sus siglas en inglés), un enfoque novedoso que simula CFG en un único paso hacia adelante. AGD aprovecha adaptadores ligeros para aproximar CFG, duplicando efectivamente la velocidad de muestreo mientras mantiene o incluso mejora la calidad de las muestras. A diferencia de los métodos previos de destilación de guía que ajustan el modelo completo, AGD mantiene congelado el modelo base y solo entrena parámetros adicionales mínimos (∼2%), reduciendo significativamente los requisitos de recursos durante la fase de destilación. Además, este enfoque preserva los pesos originales del modelo y permite que los adaptadores se combinen sin problemas con otros puntos de control derivados del mismo modelo base. También abordamos un desajuste clave entre el entrenamiento y la inferencia en los métodos existentes de destilación de guía, entrenando en trayectorias guiadas por CFG en lugar de trayectorias estándar de difusión. A través de experimentos extensos, demostramos que AGD logra un FID comparable o superior a CFG en múltiples arquitecturas con solo la mitad de las NFEs. Notablemente, nuestro método permite la destilación de modelos grandes (∼2.6 mil millones de parámetros) en una sola GPU de consumo con 24 GB de VRAM, haciéndolo más accesible que enfoques anteriores que requieren múltiples GPUs de alta gama. Publicaremos la implementación de nuestro método.
English
While classifier-free guidance (CFG) is essential for conditional diffusion models, it doubles the number of neural function evaluations (NFEs) per inference step. To mitigate this inefficiency, we introduce adapter guidance distillation (AGD), a novel approach that simulates CFG in a single forward pass. AGD leverages lightweight adapters to approximate CFG, effectively doubling the sampling speed while maintaining or even improving sample quality. Unlike prior guidance distillation methods that tune the entire model, AGD keeps the base model frozen and only trains minimal additional parameters (sim2%) to significantly reduce the resource requirement of the distillation phase. Additionally, this approach preserves the original model weights and enables the adapters to be seamlessly combined with other checkpoints derived from the same base model. We also address a key mismatch between training and inference in existing guidance distillation methods by training on CFG-guided trajectories instead of standard diffusion trajectories. Through extensive experiments, we show that AGD achieves comparable or superior FID to CFG across multiple architectures with only half the NFEs. Notably, our method enables the distillation of large models (sim2.6B parameters) on a single consumer GPU with 24 GB of VRAM, making it more accessible than previous approaches that require multiple high-end GPUs. We will publicly release the implementation of our method.

Summary

AI-Generated Summary

PDF41March 11, 2025