Distillation efficace du guidage sans classifieur à l'aide d'adaptateurs
Efficient Distillation of Classifier-Free Guidance using Adapters
March 10, 2025
Auteurs: Cristian Perez Jensen, Seyedmorteza Sadat
cs.AI
Résumé
Bien que le guidage sans classifieur (CFG) soit essentiel pour les modèles de diffusion conditionnels, il double le nombre d'évaluations de fonctions neuronales (NFEs) par étape d'inférence. Pour atténuer cette inefficacité, nous introduisons la distillation par guidage d'adaptateurs (AGD), une approche novatrice qui simule le CFG en une seule passe avant. AGD exploite des adaptateurs légers pour approximer le CFG, doublant ainsi la vitesse d'échantillonnage tout en maintenant, voire en améliorant, la qualité des échantillons. Contrairement aux méthodes de distillation de guidage antérieures qui ajustent l'ensemble du modèle, AGD garde le modèle de base figé et n'entraîne que des paramètres supplémentaires minimaux (∼2%), réduisant ainsi significativement les ressources nécessaires pour la phase de distillation. De plus, cette approche préserve les poids originaux du modèle et permet aux adaptateurs d'être combinés de manière transparente avec d'autres points de contrôle dérivés du même modèle de base. Nous abordons également un décalage clé entre l'entraînement et l'inférence dans les méthodes de distillation de guidage existantes en entraînant sur des trajectoires guidées par CFG plutôt que sur des trajectoires de diffusion standard. À travers des expériences approfondies, nous montrons qu'AGD atteint un FID comparable ou supérieur à celui du CFG sur plusieurs architectures avec seulement la moitié des NFEs. Notamment, notre méthode permet la distillation de grands modèles (∼2,6 milliards de paramètres) sur un seul GPU grand public avec 24 Go de VRAM, la rendant plus accessible que les approches précédentes qui nécessitent plusieurs GPU haut de gamme. Nous rendrons publique l'implémentation de notre méthode.
English
While classifier-free guidance (CFG) is essential for conditional diffusion
models, it doubles the number of neural function evaluations (NFEs) per
inference step. To mitigate this inefficiency, we introduce adapter guidance
distillation (AGD), a novel approach that simulates CFG in a single forward
pass. AGD leverages lightweight adapters to approximate CFG, effectively
doubling the sampling speed while maintaining or even improving sample quality.
Unlike prior guidance distillation methods that tune the entire model, AGD
keeps the base model frozen and only trains minimal additional parameters
(sim2%) to significantly reduce the resource requirement of the distillation
phase. Additionally, this approach preserves the original model weights and
enables the adapters to be seamlessly combined with other checkpoints derived
from the same base model. We also address a key mismatch between training and
inference in existing guidance distillation methods by training on CFG-guided
trajectories instead of standard diffusion trajectories. Through extensive
experiments, we show that AGD achieves comparable or superior FID to CFG across
multiple architectures with only half the NFEs. Notably, our method enables the
distillation of large models (sim2.6B parameters) on a single consumer GPU
with 24 GB of VRAM, making it more accessible than previous approaches that
require multiple high-end GPUs. We will publicly release the implementation of
our method.Summary
AI-Generated Summary