Diversitätsbelohnte CFG-Destillation
Diversity-Rewarded CFG Distillation
October 8, 2024
Autoren: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
Zusammenfassung
Generative Modelle transformieren kreative Bereiche wie die Musikgenerierung, wobei Inferenzzeitstrategien wie der klassifiziererfreie Leitfaden (CFG) eine entscheidende Rolle spielen. Allerdings verdoppelt CFG die Inferenzkosten, während es die Originalität und Vielfalt der generierten Inhalte einschränkt. In diesem Paper stellen wir die diversitätsbelohnte CFG-Destillation vor, ein neuartiges Feinabstimmungsverfahren, das die Stärken von CFG destilliert und gleichzeitig seine Grenzen angeht. Unser Ansatz optimiert zwei Trainingsziele: (1) ein Destillationsziel, das das Modell allein (ohne CFG) dazu ermutigt, die durch CFG erweiterten Vorhersagen zu imitieren, und (2) ein RL-Ziel mit einer Diversitätsbelohnung, das die Generierung verschiedener Ausgaben für eine gegebene Eingabe fördert. Durch die Feinabstimmung lernen wir Modellgewichte mit der Fähigkeit, hochwertige und vielfältige Ausgaben zu generieren, ohne zusätzlichen Inferenzaufwand. Dies erschließt auch das Potenzial von gewichtsbasierten Modellzusammenführungsstrategien: indem wir zwischen den Gewichten zweier Modelle interpolieren (das erste konzentriert sich auf Qualität, das zweite auf Vielfalt), können wir den Qualität-Vielfalt-Ausgleich zur Bereitstellungszeit steuern und die Leistung sogar weiter steigern. Wir führen umfangreiche Experimente mit dem MusicLM (Agostinelli et al., 2023) Text-zu-Musik-generierenden Modell durch, bei denen unser Ansatz die CFG in Bezug auf die Pareto-Optimalität von Qualität und Vielfalt übertrifft. Laut menschlichen Evaluatoren generiert unser feinabgestimmtes und dann fusioniertes Modell Proben mit einer höheren Qualität und Vielfalt als das Basismodell, das mit CFG erweitert wurde. Erkunden Sie unsere Generationen unter https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.Summary
AI-Generated Summary