ChatPaper.aiChatPaper

Safe RLHF : Apprentissage par Renforcement Sûr à partir de Retours Humains

Safe RLHF: Safe Reinforcement Learning from Human Feedback

October 19, 2023
Auteurs: Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang
cs.AI

Résumé

Avec le développement des grands modèles de langage (LLM), trouver un équilibre entre les performances et la sécurité des systèmes d'IA n'a jamais été aussi crucial. Cependant, la tension inhérente entre les objectifs d'utilité et d'innocuité représente un défi majeur lors de l'entraînement des LLM. Pour résoudre ce problème, nous proposons l'apprentissage par renforcement sûr à partir de retours humains (Safe RLHF), un nouvel algorithme pour l'alignement des valeurs humaines. Safe RLHF découple explicitement les préférences humaines concernant l'utilité et l'innocuité, évitant ainsi la confusion des annotateurs face à cette tension et permettant d'entraîner des modèles de récompense et de coût distincts. Nous formalisons la préoccupation de sécurité des LLM comme une tâche d'optimisation visant à maximiser la fonction de récompense tout en respectant des contraintes de coût spécifiées. En exploitant la méthode de Lagrange pour résoudre ce problème contraint, Safe RLHF ajuste dynamiquement l'équilibre entre ces deux objectifs lors du fine-tuning. À travers trois cycles de fine-tuning utilisant Safe RLHF, nous démontrons une capacité supérieure à atténuer les réponses nuisibles tout en améliorant les performances du modèle par rapport aux algorithmes existants alignés sur les valeurs. Expérimentalement, nous avons fine-tuné Alpaca-7B avec Safe RLHF et l'avons aligné sur les préférences humaines collectées, améliorant significativement son utilité et son innocuité selon les évaluations humaines.
English
With the development of large language models (LLMs), striking a balance between the performance and safety of AI systems has never been more critical. However, the inherent tension between the objectives of helpfulness and harmlessness presents a significant challenge during LLM training. To address this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly decouples human preferences regarding helpfulness and harmlessness, effectively avoiding the crowdworkers' confusion about the tension and allowing us to train separate reward and cost models. We formalize the safety concern of LLMs as an optimization task of maximizing the reward function while satisfying specified cost constraints. Leveraging the Lagrangian method to solve this constrained problem, Safe RLHF dynamically adjusts the balance between the two objectives during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we demonstrate a superior ability to mitigate harmful responses while enhancing model performance compared to existing value-aligned algorithms. Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with collected human preferences, significantly improving its helpfulness and harmlessness according to human evaluations.
PDF285December 15, 2024