Эффективная дистилляция безклассового управления с использованием адаптеров

Аннотация

Хотя классификаторно-свободное управление (CFG) является важным для условных диффузионных моделей, оно удваивает количество вычислений нейронных функций (NFE) на каждый шаг вывода. Чтобы устранить эту неэффективность, мы представляем дистилляцию с адаптерным управлением (AGD) — новый подход, который моделирует CFG за один прямой проход. AGD использует легковесные адаптеры для аппроксимации CFG, эффективно удваивая скорость выборки при сохранении или даже улучшении качества образцов. В отличие от предыдущих методов дистилляции управления, которые настраивают всю модель, AGD оставляет базовую модель замороженной и обучает только минимальные дополнительные параметры (около 2%), что значительно снижает требования к ресурсам на этапе дистилляции. Кроме того, этот подход сохраняет исходные веса модели и позволяет адаптерам легко комбинироваться с другими контрольными точками, полученными из той же базовой модели. Мы также устраняем ключевое несоответствие между обучением и выводом в существующих методах дистилляции управления, обучая на траекториях, управляемых CFG, вместо стандартных диффузионных траекторий. В ходе обширных экспериментов мы показываем, что AGD достигает сопоставимого или превосходящего FID по сравнению с CFG на множестве архитектур, используя лишь половину NFE. Примечательно, что наш метод позволяет дистиллировать крупные модели (около 2,6 млрд параметров) на одной потребительской видеокарте с 24 ГБ видеопамяти, делая его более доступным, чем предыдущие подходы, требующие нескольких высокопроизводительных GPU. Мы опубликуем реализацию нашего метода в открытом доступе.

English

While classifier-free guidance (CFG) is essential for conditional diffusion models, it doubles the number of neural function evaluations (NFEs) per inference step. To mitigate this inefficiency, we introduce adapter guidance distillation (AGD), a novel approach that simulates CFG in a single forward pass. AGD leverages lightweight adapters to approximate CFG, effectively doubling the sampling speed while maintaining or even improving sample quality. Unlike prior guidance distillation methods that tune the entire model, AGD keeps the base model frozen and only trains minimal additional parameters (sim2%) to significantly reduce the resource requirement of the distillation phase. Additionally, this approach preserves the original model weights and enables the adapters to be seamlessly combined with other checkpoints derived from the same base model. We also address a key mismatch between training and inference in existing guidance distillation methods by training on CFG-guided trajectories instead of standard diffusion trajectories. Through extensive experiments, we show that AGD achieves comparable or superior FID to CFG across multiple architectures with only half the NFEs. Notably, our method enables the distillation of large models (sim2.6B parameters) on a single consumer GPU with 24 GB of VRAM, making it more accessible than previous approaches that require multiple high-end GPUs. We will publicly release the implementation of our method.

Эффективная дистилляция безклассового управления с использованием адаптеров

Efficient Distillation of Classifier-Free Guidance using Adapters

Аннотация

Support