ChatPaper.aiChatPaper

Veilige RLHF: Veilige Reinforcement Learning met Menselijke Feedback

Safe RLHF: Safe Reinforcement Learning from Human Feedback

October 19, 2023
Auteurs: Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang
cs.AI

Samenvatting

Met de ontwikkeling van grote taalmodelen (LLMs) is het vinden van een balans tussen de prestaties en veiligheid van AI-systemen nog nooit zo cruciaal geweest. De inherente spanning tussen de doelstellingen van behulpzaamheid en onschadelijkheid vormt echter een aanzienlijke uitdaging tijdens de training van LLMs. Om dit probleem aan te pakken, stellen we Safe Reinforcement Learning from Human Feedback (Safe RLHF) voor, een nieuw algoritme voor het afstemmen van menselijke waarden. Safe RLHF ontkoppelt expliciet menselijke voorkeuren met betrekking tot behulpzaamheid en onschadelijkheid, waardoor verwarring bij crowdworkers over deze spanning wordt voorkomen en het mogelijk wordt om afzonderlijke belonings- en kostenmodellen te trainen. We formaliseren het veiligheidsaspect van LLMs als een optimalisatieprobleem waarbij de beloningsfunctie wordt gemaximaliseerd onder specifieke kostenbeperkingen. Door gebruik te maken van de Lagrangiaanse methode om dit beperkte probleem op te lossen, past Safe RLHF dynamisch de balans tussen de twee doelstellingen aan tijdens het finetunen. Door middel van een driedelige finetuning met Safe RLHF tonen we een superieure mogelijkheid aan om schadelijke reacties te verminderen en tegelijkertijd de modelprestaties te verbeteren in vergelijking met bestaande waarde-afgestemde algoritmen. Experimenteel hebben we Alpaca-7B gefinetuned met Safe RLHF en afgestemd op verzamelde menselijke voorkeuren, wat volgens menselijke evaluaties leidde tot een significante verbetering in zowel behulpzaamheid als onschadelijkheid.
English
With the development of large language models (LLMs), striking a balance between the performance and safety of AI systems has never been more critical. However, the inherent tension between the objectives of helpfulness and harmlessness presents a significant challenge during LLM training. To address this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly decouples human preferences regarding helpfulness and harmlessness, effectively avoiding the crowdworkers' confusion about the tension and allowing us to train separate reward and cost models. We formalize the safety concern of LLMs as an optimization task of maximizing the reward function while satisfying specified cost constraints. Leveraging the Lagrangian method to solve this constrained problem, Safe RLHF dynamically adjusts the balance between the two objectives during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we demonstrate a superior ability to mitigate harmful responses while enhancing model performance compared to existing value-aligned algorithms. Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with collected human preferences, significantly improving its helpfulness and harmlessness according to human evaluations.
PDF285February 7, 2026