Distillazione Efficiente della Guida Senza Classificatori tramite Adattatori

Abstract

Mentre la guida senza classificatore (CFG) è essenziale per i modelli di diffusione condizionata, raddoppia il numero di valutazioni di funzioni neurali (NFE) per ogni passo di inferenza. Per mitigare questa inefficienza, introduciamo la distillazione con guida adattiva (AGD), un approccio innovativo che simula la CFG in un singolo passaggio in avanti. L'AGD sfrutta adattatori leggeri per approssimare la CFG, raddoppiando efficacemente la velocità di campionamento mantenendo o addirittura migliorando la qualità dei campioni. A differenza dei precedenti metodi di distillazione della guida che ottimizzano l'intero modello, l'AGD mantiene congelato il modello di base e addestra solo parametri aggiuntivi minimi (circa il 2%) per ridurre significativamente le risorse richieste nella fase di distillazione. Inoltre, questo approccio preserva i pesi originali del modello e consente agli adattatori di essere combinati senza soluzione di continuità con altri checkpoint derivati dallo stesso modello di base. Affrontiamo anche un disallineamento chiave tra addestramento e inferenza nei metodi esistenti di distillazione della guida, addestrando su traiettorie guidate da CFG invece che su traiettorie standard di diffusione. Attraverso esperimenti estesi, dimostriamo che l'AGD raggiunge un FID comparabile o superiore alla CFG su più architetture con solo la metà delle NFE. In particolare, il nostro metodo consente la distillazione di modelli di grandi dimensioni (circa 2,6 miliardi di parametri) su una singola GPU consumer con 24 GB di VRAM, rendendolo più accessibile rispetto agli approcci precedenti che richiedono più GPU di fascia alta. Rilasceremo pubblicamente l'implementazione del nostro metodo.

English

While classifier-free guidance (CFG) is essential for conditional diffusion models, it doubles the number of neural function evaluations (NFEs) per inference step. To mitigate this inefficiency, we introduce adapter guidance distillation (AGD), a novel approach that simulates CFG in a single forward pass. AGD leverages lightweight adapters to approximate CFG, effectively doubling the sampling speed while maintaining or even improving sample quality. Unlike prior guidance distillation methods that tune the entire model, AGD keeps the base model frozen and only trains minimal additional parameters (sim2%) to significantly reduce the resource requirement of the distillation phase. Additionally, this approach preserves the original model weights and enables the adapters to be seamlessly combined with other checkpoints derived from the same base model. We also address a key mismatch between training and inference in existing guidance distillation methods by training on CFG-guided trajectories instead of standard diffusion trajectories. Through extensive experiments, we show that AGD achieves comparable or superior FID to CFG across multiple architectures with only half the NFEs. Notably, our method enables the distillation of large models (sim2.6B parameters) on a single consumer GPU with 24 GB of VRAM, making it more accessible than previous approaches that require multiple high-end GPUs. We will publicly release the implementation of our method.

Distillazione Efficiente della Guida Senza Classificatori tramite Adattatori

Efficient Distillation of Classifier-Free Guidance using Adapters

Abstract

Support