Эффективная дистилляция безклассового управления с использованием адаптеров
Efficient Distillation of Classifier-Free Guidance using Adapters
March 10, 2025
Авторы: Cristian Perez Jensen, Seyedmorteza Sadat
cs.AI
Аннотация
Хотя классификаторно-свободное управление (CFG) является важным для условных диффузионных моделей, оно удваивает количество вычислений нейронных функций (NFE) на каждый шаг вывода. Чтобы устранить эту неэффективность, мы представляем дистилляцию с адаптерным управлением (AGD) — новый подход, который моделирует CFG за один прямой проход. AGD использует легковесные адаптеры для аппроксимации CFG, эффективно удваивая скорость выборки при сохранении или даже улучшении качества образцов. В отличие от предыдущих методов дистилляции управления, которые настраивают всю модель, AGD оставляет базовую модель замороженной и обучает только минимальные дополнительные параметры (около 2%), что значительно снижает требования к ресурсам на этапе дистилляции. Кроме того, этот подход сохраняет исходные веса модели и позволяет адаптерам легко комбинироваться с другими контрольными точками, полученными из той же базовой модели. Мы также устраняем ключевое несоответствие между обучением и выводом в существующих методах дистилляции управления, обучая на траекториях, управляемых CFG, вместо стандартных диффузионных траекторий. В ходе обширных экспериментов мы показываем, что AGD достигает сопоставимого или превосходящего FID по сравнению с CFG на множестве архитектур, используя лишь половину NFE. Примечательно, что наш метод позволяет дистиллировать крупные модели (около 2,6 млрд параметров) на одной потребительской видеокарте с 24 ГБ видеопамяти, делая его более доступным, чем предыдущие подходы, требующие нескольких высокопроизводительных GPU. Мы опубликуем реализацию нашего метода в открытом доступе.
English
While classifier-free guidance (CFG) is essential for conditional diffusion
models, it doubles the number of neural function evaluations (NFEs) per
inference step. To mitigate this inefficiency, we introduce adapter guidance
distillation (AGD), a novel approach that simulates CFG in a single forward
pass. AGD leverages lightweight adapters to approximate CFG, effectively
doubling the sampling speed while maintaining or even improving sample quality.
Unlike prior guidance distillation methods that tune the entire model, AGD
keeps the base model frozen and only trains minimal additional parameters
(sim2%) to significantly reduce the resource requirement of the distillation
phase. Additionally, this approach preserves the original model weights and
enables the adapters to be seamlessly combined with other checkpoints derived
from the same base model. We also address a key mismatch between training and
inference in existing guidance distillation methods by training on CFG-guided
trajectories instead of standard diffusion trajectories. Through extensive
experiments, we show that AGD achieves comparable or superior FID to CFG across
multiple architectures with only half the NFEs. Notably, our method enables the
distillation of large models (sim2.6B parameters) on a single consumer GPU
with 24 GB of VRAM, making it more accessible than previous approaches that
require multiple high-end GPUs. We will publicly release the implementation of
our method.Summary
AI-Generated Summary