CFG Diversificatiebeloning bij Distillatie
Diversity-Rewarded CFG Distillation
October 8, 2024
Auteurs: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
Samenvatting
Generatieve modellen transformeren creatieve domeinen zoals muziekgeneratie, waarbij inferentiestrategieën zoals Classifier-Free Guidance (CFG) een cruciale rol spelen. Echter, CFG verdubbelt de inferentiekosten en beperkt de originaliteit en diversiteit van gegenereerde inhoud. In dit artikel introduceren we diversiteit-beloonde CFG-distantiëring, een nieuw verfijningsproces dat de sterke punten van CFG destilleert en tegelijkertijd de beperkingen ervan aanpakt. Onze aanpak optimaliseert twee trainingsdoelen: (1) een distillatiedoelstelling die het model alleen (zonder CFG) aanmoedigt om de voorspellingen van CFG na te bootsen, en (2) een RL-doelstelling met een diversiteitsbeloning die de generatie van diverse uitvoer voor een gegeven prompt bevordert. Door verfijning leren we modelgewichten die in staat zijn om hoogwaardige en diverse uitvoer te genereren, zonder enige inferentie-overhead. Dit ontsluit ook het potentieel van gewichtsgebaseerde model-samenvoegingsstrategieën: door te interpoleren tussen de gewichten van twee modellen (de eerste gericht op kwaliteit, de tweede op diversiteit), kunnen we de kwaliteit-diversiteit afweging tijdens implementatie controleren en zelfs de prestaties verder verbeteren. We voeren uitgebreide experimenten uit op het MusicLM (Agostinelli et al., 2023) tekst-naar-muziek generatieve model, waarbij onze aanpak CFG overtreft op het gebied van kwaliteit-diversiteit Pareto-optimaliteit. Volgens menselijke beoordelaars genereert ons verfijnde-en-verenigde model monsters met een hogere kwaliteit-diversiteit dan het basismodel aangevuld met CFG. Verken onze generaties op https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.Summary
AI-Generated Summary