Destilação de CFG recompensada pela diversidade
Diversity-Rewarded CFG Distillation
October 8, 2024
Autores: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
Resumo
Os modelos generativos estão transformando domínios criativos como a geração de música, com estratégias de orientação no tempo de inferência, como a Orientação Livre de Classificadores (CFG), desempenhando um papel crucial. No entanto, a CFG duplica o custo de inferência, ao mesmo tempo que limita a originalidade e diversidade nos conteúdos gerados. Neste artigo, apresentamos a destilação da CFG recompensada pela diversidade, um procedimento de ajuste fino inovador que destila os pontos fortes da CFG enquanto aborda suas limitações. Nossa abordagem otimiza dois objetivos de treinamento: (1) um objetivo de destilação, incentivando o modelo sozinho (sem CFG) a imitar as previsões aumentadas pela CFG, e (2) um objetivo de RL com uma recompensa de diversidade, promovendo a geração de saídas diversas para um prompt dado. Por meio do ajuste fino, aprendemos os pesos do modelo com a capacidade de gerar saídas de alta qualidade e diversas, sem nenhum custo adicional de inferência. Isso também desbloqueia o potencial de estratégias de fusão de modelos baseadas em pesos: ao interpolar entre os pesos de dois modelos (o primeiro focando na qualidade, o segundo na diversidade), podemos controlar o equilíbrio qualidade-diversidade no momento da implantação e até mesmo melhorar ainda mais o desempenho. Realizamos experimentos extensivos no modelo generativo de texto para música MusicLM (Agostinelli et al., 2023), onde nossa abordagem supera a CFG em termos de optimalidade de Pareto qualidade-diversidade. De acordo com avaliadores humanos, nosso modelo ajustado e depois fundido gera amostras com maior qualidade-diversidade do que o modelo base aumentado com CFG. Explore nossas gerações em https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.Summary
AI-Generated Summary