Destilación de CFG recompensada por diversidad
Diversity-Rewarded CFG Distillation
October 8, 2024
Autores: Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé
cs.AI
Resumen
Los modelos generativos están transformando dominios creativos como la generación de música, con estrategias de tiempo de inferencia como la Guía sin Clasificador (CFG, por sus siglas en inglés) desempeñando un papel crucial. Sin embargo, CFG duplica el costo de inferencia al tiempo que limita la originalidad y diversidad en los contenidos generados. En este artículo, presentamos la destilación de CFG recompensada por diversidad, un procedimiento de ajuste fino novedoso que destila las fortalezas de CFG mientras aborda sus limitaciones. Nuestro enfoque optimiza dos objetivos de entrenamiento: (1) un objetivo de destilación, que alienta al modelo solo (sin CFG) a imitar las predicciones aumentadas por CFG, y (2) un objetivo de RL con una recompensa de diversidad, que promueve la generación de salidas diversas para una indicación dada. A través del ajuste fino, aprendemos los pesos del modelo con la capacidad de generar salidas de alta calidad y diversas, sin ningún costo adicional de inferencia. Esto también desbloquea el potencial de estrategias de fusión de modelos basadas en pesos: al interpolar entre los pesos de dos modelos (el primero enfocado en calidad, el segundo en diversidad), podemos controlar el equilibrio calidad-diversidad en el momento de implementación, e incluso mejorar aún más el rendimiento. Realizamos experimentos extensos en el modelo generativo de texto a música MusicLM (Agostinelli et al., 2023), donde nuestro enfoque supera a CFG en términos de optimalidad de Pareto calidad-diversidad. Según evaluadores humanos, nuestro modelo ajustado y luego fusionado genera muestras con una calidad-diversidad más alta que el modelo base aumentado con CFG. Explore nuestras generaciones en https://google-research.github.io/seanet/musiclm/diverse_music/.
English
Generative models are transforming creative domains such as music generation,
with inference-time strategies like Classifier-Free Guidance (CFG) playing a
crucial role. However, CFG doubles inference cost while limiting originality
and diversity across generated contents. In this paper, we introduce
diversity-rewarded CFG distillation, a novel finetuning procedure that distills
the strengths of CFG while addressing its limitations. Our approach optimises
two training objectives: (1) a distillation objective, encouraging the model
alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL
objective with a diversity reward, promoting the generation of diverse outputs
for a given prompt. By finetuning, we learn model weights with the ability to
generate high-quality and diverse outputs, without any inference overhead. This
also unlocks the potential of weight-based model merging strategies: by
interpolating between the weights of two models (the first focusing on quality,
the second on diversity), we can control the quality-diversity trade-off at
deployment time, and even further boost performance. We conduct extensive
experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative
model, where our approach surpasses CFG in terms of quality-diversity Pareto
optimality. According to human evaluators, our finetuned-then-merged model
generates samples with higher quality-diversity than the base model augmented
with CFG. Explore our generations at
https://google-research.github.io/seanet/musiclm/diverse_music/.Summary
AI-Generated Summary