Distillation de CFG récompensée par la diversité
Diversity-Rewarded CFG Distillation
October 8, 2024
Auteurs: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
Résumé
Les modèles génératifs transforment des domaines créatifs tels que la génération de musique, avec des stratégies de guidage au moment de l'inférence comme le Guidage sans Classificateur (CFG) jouant un rôle crucial. Cependant, le CFG double le coût de l'inférence tout en limitant l'originalité et la diversité des contenus générés. Dans cet article, nous introduisons la distillation CFG récompensée par la diversité, une nouvelle procédure de fine-tuning qui distille les forces du CFG tout en abordant ses limitations. Notre approche optimise deux objectifs d'entraînement : (1) un objectif de distillation, encourageant le modèle seul (sans CFG) à imiter les prédictions augmentées par le CFG, et (2) un objectif de RL avec une récompense de diversité, favorisant la génération de sorties diverses pour une instruction donnée. En affinant, nous apprenons les poids du modèle avec la capacité de générer des sorties de haute qualité et diversifiées, sans surcoût d'inférence. Cela débloque également le potentiel des stratégies de fusion de modèles basées sur les poids : en interpolant entre les poids de deux modèles (le premier se concentrant sur la qualité, le second sur la diversité), nous pouvons contrôler le compromis qualité-diversité au moment du déploiement, et même améliorer encore les performances. Nous menons des expériences approfondies sur le modèle génératif de texte à musique MusicLM (Agostinelli et al., 2023), où notre approche surpasse le CFG en termes d'optimalité de Pareto qualité-diversité. Selon les évaluateurs humains, notre modèle affiné puis fusionné génère des échantillons avec une qualité-diversité plus élevée que le modèle de base augmenté avec le CFG. Explorez nos générations sur https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.Summary
AI-Generated Summary