Destilação Eficiente de Orientação Livre de Classificadores usando Adaptadores
Efficient Distillation of Classifier-Free Guidance using Adapters
March 10, 2025
Autores: Cristian Perez Jensen, Seyedmorteza Sadat
cs.AI
Resumo
Embora a orientação sem classificador (CFG, do inglês Classifier-Free Guidance) seja essencial para modelos de difusão condicional, ela dobra o número de avaliações de funções neurais (NFEs, do inglês Neural Function Evaluations) por etapa de inferência. Para mitigar essa ineficiência, introduzimos a destilação de orientação por adaptadores (AGD, do inglês Adapter Guidance Distillation), uma abordagem inovadora que simula a CFG em uma única passagem direta. A AGD utiliza adaptadores leves para aproximar a CFG, efetivamente dobrando a velocidade de amostragem enquanto mantém ou até melhora a qualidade das amostras. Diferente de métodos anteriores de destilação de orientação que ajustam o modelo inteiro, a AGD mantém o modelo base congelado e treina apenas parâmetros adicionais mínimos (cerca de 2%), reduzindo significativamente a demanda de recursos na fase de destilação. Além disso, essa abordagem preserva os pesos originais do modelo e permite que os adaptadores sejam combinados de forma contínua com outros checkpoints derivados do mesmo modelo base. Também abordamos uma incompatibilidade crucial entre treinamento e inferência em métodos existentes de destilação de orientação, treinando em trajetórias guiadas por CFG em vez de trajetórias padrão de difusão. Por meio de experimentos extensivos, mostramos que a AGD alcança FID (Fréchet Inception Distance) comparável ou superior à CFG em múltiplas arquiteturas com apenas metade das NFEs. Notavelmente, nosso método permite a destilação de modelos grandes (cerca de 2,6 bilhões de parâmetros) em uma única GPU de consumo com 24 GB de VRAM, tornando-o mais acessível do que abordagens anteriores que exigem múltiplas GPUs de alto desempenho. Disponibilizaremos publicamente a implementação do nosso método.
English
While classifier-free guidance (CFG) is essential for conditional diffusion
models, it doubles the number of neural function evaluations (NFEs) per
inference step. To mitigate this inefficiency, we introduce adapter guidance
distillation (AGD), a novel approach that simulates CFG in a single forward
pass. AGD leverages lightweight adapters to approximate CFG, effectively
doubling the sampling speed while maintaining or even improving sample quality.
Unlike prior guidance distillation methods that tune the entire model, AGD
keeps the base model frozen and only trains minimal additional parameters
(sim2%) to significantly reduce the resource requirement of the distillation
phase. Additionally, this approach preserves the original model weights and
enables the adapters to be seamlessly combined with other checkpoints derived
from the same base model. We also address a key mismatch between training and
inference in existing guidance distillation methods by training on CFG-guided
trajectories instead of standard diffusion trajectories. Through extensive
experiments, we show that AGD achieves comparable or superior FID to CFG across
multiple architectures with only half the NFEs. Notably, our method enables the
distillation of large models (sim2.6B parameters) on a single consumer GPU
with 24 GB of VRAM, making it more accessible than previous approaches that
require multiple high-end GPUs. We will publicly release the implementation of
our method.Summary
AI-Generated Summary