Дистилляция CFG с вознаграждением за разнообразие
Diversity-Rewarded CFG Distillation
October 8, 2024
Авторы: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
Аннотация
Генеративные модели преобразуют творческие области, такие как генерация музыки, где стратегии времени вывода, такие как Classifier-Free Guidance (CFG), играют решающую роль. Однако CFG удваивает стоимость вывода, ограничивая оригинальность и разнообразие созданных контентов. В данной статье мы представляем дистилляцию CFG с поощрением разнообразия, новую процедуру донастройки, которая дистиллирует преимущества CFG, учитывая его ограничения. Наш подход оптимизирует две цели обучения: (1) цель дистилляции, поощряющая модель одну (без CFG) имитировать прогнозы, усиленные CFG, и (2) цель RL с наградой за разнообразие, способствующая генерации разнообразных результатов для заданного запроса. Путем донастройки мы учим веса модели с возможностью генерировать высококачественные и разнообразные результаты без каких-либо накладных расходов на вывод. Это также открывает потенциал стратегий слияния моделей на основе весов: путем интерполяции между весами двух моделей (первая с акцентом на качество, вторая на разнообразие) мы можем контролировать компромисс между качеством и разнообразием во время развертывания и даже дополнительно повысить производительность. Мы проводим обширные эксперименты на модели генерации текста в музыку MusicLM (Agostinelli и др., 2023), где наш подход превосходит CFG с точки зрения оптимальности Парето по качеству и разнообразию. По мнению человеческих оценщиков, наша модель, донастроенная, а затем объединенная, генерирует образцы с более высоким качеством и разнообразием, чем базовая модель, усиленная CFG. Исследуйте наши генерации по ссылке https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.Summary
AI-Generated Summary