ChatPaper.aiChatPaper

Entraînement des modèles de diffusion avec l'apprentissage par renforcement

Training Diffusion Models with Reinforcement Learning

May 22, 2023
Auteurs: Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine
cs.AI

Résumé

Les modèles de diffusion constituent une classe de modèles génératifs flexibles entraînés à l'aide d'une approximation de la fonction de vraisemblance logarithmique. Cependant, la plupart des cas d'utilisation des modèles de diffusion ne se préoccupent pas des vraisemblances, mais plutôt d'objectifs en aval tels que la qualité perçue des images par les humains ou l'efficacité des médicaments. Dans cet article, nous explorons des méthodes d'apprentissage par renforcement pour optimiser directement les modèles de diffusion en fonction de tels objectifs. Nous décrivons comment la formulation du débruitage en tant que problème de prise de décision multi-étapes permet l'utilisation d'une classe d'algorithmes de gradient de politique, que nous appelons optimisation de politique par diffusion de débruitage (DDPO), qui s'avèrent plus efficaces que les approches alternatives pondérées par la récompense. Empiriquement, DDPO permet d'adapter les modèles de diffusion texte-image à des objectifs difficiles à exprimer via des prompts, tels que la compressibilité des images, et ceux dérivés de retours humains, comme la qualité esthétique. Enfin, nous montrons que DDPO peut améliorer l'alignement prompt-image en utilisant les retours d'un modèle vision-langage, sans nécessiter de collecte de données supplémentaires ou d'annotation humaine.
English
Diffusion models are a class of flexible generative models trained with an approximation to the log-likelihood objective. However, most use cases of diffusion models are not concerned with likelihoods, but instead with downstream objectives such as human-perceived image quality or drug effectiveness. In this paper, we investigate reinforcement learning methods for directly optimizing diffusion models for such objectives. We describe how posing denoising as a multi-step decision-making problem enables a class of policy gradient algorithms, which we refer to as denoising diffusion policy optimization (DDPO), that are more effective than alternative reward-weighted likelihood approaches. Empirically, DDPO is able to adapt text-to-image diffusion models to objectives that are difficult to express via prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Finally, we show that DDPO can improve prompt-image alignment using feedback from a vision-language model without the need for additional data collection or human annotation.
PDF41December 15, 2024