Distillazione CFG con Ricompensa della Diversità
Diversity-Rewarded CFG Distillation
October 8, 2024
Autori: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
Abstract
I modelli generativi stanno trasformando settori creativi come la generazione musicale, con strategie di guida durante l'inferenza come la Guida Senza Classificatore (CFG) che svolgono un ruolo cruciale. Tuttavia, la CFG raddoppia il costo dell'inferenza limitando l'originalità e la diversità dei contenuti generati. In questo articolo, presentiamo la distillazione della CFG premiata per la diversità, una procedura di raffinamento innovativa che distilla i punti di forza della CFG affrontandone i limiti. Il nostro approccio ottimizza due obiettivi di addestramento: (1) un obiettivo di distillazione, che incoraggia il modello da solo (senza CFG) a imitare le previsioni potenziate dalla CFG, e (2) un obiettivo di RL con un premio per la diversità, che promuove la generazione di output diversi per un determinato input. Attraverso il raffinamento, apprendiamo i pesi del modello con la capacità di generare output di alta qualità e diversi, senza alcun costo aggiuntivo durante l'inferenza. Ciò sblocca anche il potenziale delle strategie di fusione dei modelli basate sui pesi: interpolando tra i pesi di due modelli (il primo incentrato sulla qualità, il secondo sulla diversità), possiamo controllare il compromesso qualità-diversità al momento del rilascio e migliorare ulteriormente le prestazioni. Conduciomo ampi esperimenti sul modello generativo di testo-musica MusicLM (Agostinelli et al., 2023), dove il nostro approccio supera la CFG in termini di ottimalità di Pareto qualità-diversità. Secondo gli esaminatori umani, il nostro modello raffinato e successivamente fuso genera campioni con una qualità-diversità superiore rispetto al modello di base potenziato con la CFG. Esplora le nostre generazioni su https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.