Distillazione CFG con Ricompensa della Diversità

Abstract

I modelli generativi stanno trasformando settori creativi come la generazione musicale, con strategie di guida durante l'inferenza come la Guida Senza Classificatore (CFG) che svolgono un ruolo cruciale. Tuttavia, la CFG raddoppia il costo dell'inferenza limitando l'originalità e la diversità dei contenuti generati. In questo articolo, presentiamo la distillazione della CFG premiata per la diversità, una procedura di raffinamento innovativa che distilla i punti di forza della CFG affrontandone i limiti. Il nostro approccio ottimizza due obiettivi di addestramento: (1) un obiettivo di distillazione, che incoraggia il modello da solo (senza CFG) a imitare le previsioni potenziate dalla CFG, e (2) un obiettivo di RL con un premio per la diversità, che promuove la generazione di output diversi per un determinato input. Attraverso il raffinamento, apprendiamo i pesi del modello con la capacità di generare output di alta qualità e diversi, senza alcun costo aggiuntivo durante l'inferenza. Ciò sblocca anche il potenziale delle strategie di fusione dei modelli basate sui pesi: interpolando tra i pesi di due modelli (il primo incentrato sulla qualità, il secondo sulla diversità), possiamo controllare il compromesso qualità-diversità al momento del rilascio e migliorare ulteriormente le prestazioni. Conduciomo ampi esperimenti sul modello generativo di testo-musica MusicLM (Agostinelli et al., 2023), dove il nostro approccio supera la CFG in termini di ottimalità di Pareto qualità-diversità. Secondo gli esaminatori umani, il nostro modello raffinato e successivamente fuso genera campioni con una qualità-diversità superiore rispetto al modello di base potenziato con la CFG. Esplora le nostre generazioni su https://google-research.github.io/seanet/musiclm/diverse_music/.

English

Generative models are transforming creative domains such as music generation, with inference-time strategies like Classifier-Free Guidance (CFG) playing a crucial role. However, CFG doubles inference cost while limiting originality and diversity across generated contents. In this paper, we introduce diversity-rewarded CFG distillation, a novel finetuning procedure that distills the strengths of CFG while addressing its limitations. Our approach optimises two training objectives: (1) a distillation objective, encouraging the model alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL objective with a diversity reward, promoting the generation of diverse outputs for a given prompt. By finetuning, we learn model weights with the ability to generate high-quality and diverse outputs, without any inference overhead. This also unlocks the potential of weight-based model merging strategies: by interpolating between the weights of two models (the first focusing on quality, the second on diversity), we can control the quality-diversity trade-off at deployment time, and even further boost performance. We conduct extensive experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative model, where our approach surpasses CFG in terms of quality-diversity Pareto optimality. According to human evaluators, our finetuned-then-merged model generates samples with higher quality-diversity than the base model augmented with CFG. Explore our generations at https://google-research.github.io/seanet/musiclm/diverse_music/.

Distillazione CFG con Ricompensa della Diversità

Diversity-Rewarded CFG Distillation

Abstract

Support