Distillazione Efficiente della Guida Senza Classificatori tramite Adattatori
Efficient Distillation of Classifier-Free Guidance using Adapters
March 10, 2025
Autori: Cristian Perez Jensen, Seyedmorteza Sadat
cs.AI
Abstract
Mentre la guida senza classificatore (CFG) è essenziale per i modelli di diffusione condizionata, raddoppia il numero di valutazioni di funzioni neurali (NFE) per ogni passo di inferenza. Per mitigare questa inefficienza, introduciamo la distillazione con guida adattiva (AGD), un approccio innovativo che simula la CFG in un singolo passaggio in avanti. L'AGD sfrutta adattatori leggeri per approssimare la CFG, raddoppiando efficacemente la velocità di campionamento mantenendo o addirittura migliorando la qualità dei campioni. A differenza dei precedenti metodi di distillazione della guida che ottimizzano l'intero modello, l'AGD mantiene congelato il modello di base e addestra solo parametri aggiuntivi minimi (circa il 2%) per ridurre significativamente le risorse richieste nella fase di distillazione. Inoltre, questo approccio preserva i pesi originali del modello e consente agli adattatori di essere combinati senza soluzione di continuità con altri checkpoint derivati dallo stesso modello di base. Affrontiamo anche un disallineamento chiave tra addestramento e inferenza nei metodi esistenti di distillazione della guida, addestrando su traiettorie guidate da CFG invece che su traiettorie standard di diffusione. Attraverso esperimenti estesi, dimostriamo che l'AGD raggiunge un FID comparabile o superiore alla CFG su più architetture con solo la metà delle NFE. In particolare, il nostro metodo consente la distillazione di modelli di grandi dimensioni (circa 2,6 miliardi di parametri) su una singola GPU consumer con 24 GB di VRAM, rendendolo più accessibile rispetto agli approcci precedenti che richiedono più GPU di fascia alta. Rilasceremo pubblicamente l'implementazione del nostro metodo.
English
While classifier-free guidance (CFG) is essential for conditional diffusion
models, it doubles the number of neural function evaluations (NFEs) per
inference step. To mitigate this inefficiency, we introduce adapter guidance
distillation (AGD), a novel approach that simulates CFG in a single forward
pass. AGD leverages lightweight adapters to approximate CFG, effectively
doubling the sampling speed while maintaining or even improving sample quality.
Unlike prior guidance distillation methods that tune the entire model, AGD
keeps the base model frozen and only trains minimal additional parameters
(sim2%) to significantly reduce the resource requirement of the distillation
phase. Additionally, this approach preserves the original model weights and
enables the adapters to be seamlessly combined with other checkpoints derived
from the same base model. We also address a key mismatch between training and
inference in existing guidance distillation methods by training on CFG-guided
trajectories instead of standard diffusion trajectories. Through extensive
experiments, we show that AGD achieves comparable or superior FID to CFG across
multiple architectures with only half the NFEs. Notably, our method enables the
distillation of large models (sim2.6B parameters) on a single consumer GPU
with 24 GB of VRAM, making it more accessible than previous approaches that
require multiple high-end GPUs. We will publicly release the implementation of
our method.Summary
AI-Generated Summary