Entraînement des modèles de diffusion avec l'apprentissage par renforcement
Training Diffusion Models with Reinforcement Learning
May 22, 2023
Auteurs: Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine
cs.AI
Résumé
Les modèles de diffusion constituent une classe de modèles génératifs flexibles entraînés à l'aide d'une approximation de la fonction de vraisemblance logarithmique. Cependant, la plupart des cas d'utilisation des modèles de diffusion ne se préoccupent pas des vraisemblances, mais plutôt d'objectifs en aval tels que la qualité perçue des images par les humains ou l'efficacité des médicaments. Dans cet article, nous explorons des méthodes d'apprentissage par renforcement pour optimiser directement les modèles de diffusion en fonction de tels objectifs. Nous décrivons comment la formulation du débruitage en tant que problème de prise de décision multi-étapes permet l'utilisation d'une classe d'algorithmes de gradient de politique, que nous appelons optimisation de politique par diffusion de débruitage (DDPO), qui s'avèrent plus efficaces que les approches alternatives pondérées par la récompense. Empiriquement, DDPO permet d'adapter les modèles de diffusion texte-image à des objectifs difficiles à exprimer via des prompts, tels que la compressibilité des images, et ceux dérivés de retours humains, comme la qualité esthétique. Enfin, nous montrons que DDPO peut améliorer l'alignement prompt-image en utilisant les retours d'un modèle vision-langage, sans nécessiter de collecte de données supplémentaires ou d'annotation humaine.
English
Diffusion models are a class of flexible generative models trained with an
approximation to the log-likelihood objective. However, most use cases of
diffusion models are not concerned with likelihoods, but instead with
downstream objectives such as human-perceived image quality or drug
effectiveness. In this paper, we investigate reinforcement learning methods for
directly optimizing diffusion models for such objectives. We describe how
posing denoising as a multi-step decision-making problem enables a class of
policy gradient algorithms, which we refer to as denoising diffusion policy
optimization (DDPO), that are more effective than alternative reward-weighted
likelihood approaches. Empirically, DDPO is able to adapt text-to-image
diffusion models to objectives that are difficult to express via prompting,
such as image compressibility, and those derived from human feedback, such as
aesthetic quality. Finally, we show that DDPO can improve prompt-image
alignment using feedback from a vision-language model without the need for
additional data collection or human annotation.