Ваш ученик превосходит ожидания: адаптивное взаимодействие учителя и ученика в текстово-условных диффузионных моделях
Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models
December 17, 2023
Авторы: Nikita Starodubcev, Artem Fedorov, Artem Babenko, Dmitry Baranchuk
cs.AI
Аннотация
Методы дистилляции знаний недавно продемонстрировали себя как перспективное направление для ускорения синтеза крупномасштабных диффузионных моделей, требуя лишь нескольких шагов вывода. Хотя несколько мощных методов дистилляции были предложены в последнее время, общее качество образцов, создаваемых учеником, обычно ниже по сравнению с образцами учителя, что ограничивает их практическое применение. В данной работе мы исследуем относительное качество образцов, создаваемых учителем — диффузионной моделью для генерации изображений по тексту — и её дистиллированной версией ученика. В качестве основного эмпирического результата мы обнаруживаем, что заметная часть образцов ученика демонстрирует превосходную точность по сравнению с образцами учителя, несмотря на «приближённый» характер ученика. На основе этого открытия мы предлагаем адаптивное взаимодействие между учеником и учителем — диффузионными моделями — для эффективного синтеза изображений по тексту. В частности, дистиллированная модель создаёт начальный образец, а затем оракул решает, требуется ли его дальнейшее улучшение с помощью медленной модели учителя. Многочисленные эксперименты демонстрируют, что разработанный конвейер превосходит современные альтернативы для генерации изображений по тексту при различных бюджетах вывода с точки зрения предпочтений человека. Кроме того, предложенный подход может быть естественным образом использован в популярных приложениях, таких как редактирование изображений с использованием текста и управляемая генерация.
English
Knowledge distillation methods have recently shown to be a promising
direction to speedup the synthesis of large-scale diffusion models by requiring
only a few inference steps. While several powerful distillation methods were
recently proposed, the overall quality of student samples is typically lower
compared to the teacher ones, which hinders their practical usage. In this
work, we investigate the relative quality of samples produced by the teacher
text-to-image diffusion model and its distilled student version. As our main
empirical finding, we discover that a noticeable portion of student samples
exhibit superior fidelity compared to the teacher ones, despite the
``approximate'' nature of the student. Based on this finding, we propose an
adaptive collaboration between student and teacher diffusion models for
effective text-to-image synthesis. Specifically, the distilled model produces
the initial sample, and then an oracle decides whether it needs further
improvements with a slow teacher model. Extensive experiments demonstrate that
the designed pipeline surpasses state-of-the-art text-to-image alternatives for
various inference budgets in terms of human preference. Furthermore, the
proposed approach can be naturally used in popular applications such as
text-guided image editing and controllable generation.