Destilação Eficiente de Orientação Livre de Classificadores usando Adaptadores

Resumo

Embora a orientação sem classificador (CFG, do inglês Classifier-Free Guidance) seja essencial para modelos de difusão condicional, ela dobra o número de avaliações de funções neurais (NFEs, do inglês Neural Function Evaluations) por etapa de inferência. Para mitigar essa ineficiência, introduzimos a destilação de orientação por adaptadores (AGD, do inglês Adapter Guidance Distillation), uma abordagem inovadora que simula a CFG em uma única passagem direta. A AGD utiliza adaptadores leves para aproximar a CFG, efetivamente dobrando a velocidade de amostragem enquanto mantém ou até melhora a qualidade das amostras. Diferente de métodos anteriores de destilação de orientação que ajustam o modelo inteiro, a AGD mantém o modelo base congelado e treina apenas parâmetros adicionais mínimos (cerca de 2%), reduzindo significativamente a demanda de recursos na fase de destilação. Além disso, essa abordagem preserva os pesos originais do modelo e permite que os adaptadores sejam combinados de forma contínua com outros checkpoints derivados do mesmo modelo base. Também abordamos uma incompatibilidade crucial entre treinamento e inferência em métodos existentes de destilação de orientação, treinando em trajetórias guiadas por CFG em vez de trajetórias padrão de difusão. Por meio de experimentos extensivos, mostramos que a AGD alcança FID (Fréchet Inception Distance) comparável ou superior à CFG em múltiplas arquiteturas com apenas metade das NFEs. Notavelmente, nosso método permite a destilação de modelos grandes (cerca de 2,6 bilhões de parâmetros) em uma única GPU de consumo com 24 GB de VRAM, tornando-o mais acessível do que abordagens anteriores que exigem múltiplas GPUs de alto desempenho. Disponibilizaremos publicamente a implementação do nosso método.

English

While classifier-free guidance (CFG) is essential for conditional diffusion models, it doubles the number of neural function evaluations (NFEs) per inference step. To mitigate this inefficiency, we introduce adapter guidance distillation (AGD), a novel approach that simulates CFG in a single forward pass. AGD leverages lightweight adapters to approximate CFG, effectively doubling the sampling speed while maintaining or even improving sample quality. Unlike prior guidance distillation methods that tune the entire model, AGD keeps the base model frozen and only trains minimal additional parameters (sim2%) to significantly reduce the resource requirement of the distillation phase. Additionally, this approach preserves the original model weights and enables the adapters to be seamlessly combined with other checkpoints derived from the same base model. We also address a key mismatch between training and inference in existing guidance distillation methods by training on CFG-guided trajectories instead of standard diffusion trajectories. Through extensive experiments, we show that AGD achieves comparable or superior FID to CFG across multiple architectures with only half the NFEs. Notably, our method enables the distillation of large models (sim2.6B parameters) on a single consumer GPU with 24 GB of VRAM, making it more accessible than previous approaches that require multiple high-end GPUs. We will publicly release the implementation of our method.

Destilação Eficiente de Orientação Livre de Classificadores usando Adaptadores

Efficient Distillation of Classifier-Free Guidance using Adapters

Resumo

Summary

Support

Support