ChatPaper.aiChatPaper

Sicheres RLHF: Sicheres Reinforcement Learning aus menschlichem Feedback

Safe RLHF: Safe Reinforcement Learning from Human Feedback

October 19, 2023
Autoren: Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang
cs.AI

Zusammenfassung

Mit der Entwicklung großer Sprachmodelle (LLMs) war es noch nie so entscheidend, ein Gleichgewicht zwischen der Leistung und der Sicherheit von KI-Systemen zu finden. Die inhärente Spannung zwischen den Zielen der Hilfsbereitschaft und der Schadlosigkeit stellt jedoch eine erhebliche Herausforderung während des Trainings von LLMs dar. Um dieses Problem zu lösen, schlagen wir Safe Reinforcement Learning from Human Feedback (Safe RLHF) vor, einen neuartigen Algorithmus zur Ausrichtung menschlicher Werte. Safe RLHF entkoppelt explizit die menschlichen Präferenzen bezüglich Hilfsbereitschaft und Schadlosigkeit, vermeidet effektiv die Verwirrung der Crowdworker über diese Spannung und ermöglicht es uns, separate Belohnungs- und Kostenmodelle zu trainieren. Wir formalisieren das Sicherheitsbedenken von LLMs als eine Optimierungsaufgabe, bei der die Belohnungsfunktion maximiert wird, während bestimmte Kostenbeschränkungen erfüllt werden. Durch die Nutzung der Lagrange-Methode zur Lösung dieses eingeschränkten Problems passt Safe RLHF dynamisch das Gleichgewicht zwischen den beiden Zielen während des Feinabstimmens an. Durch eine dreirundige Feinabstimmung mit Safe RLHF demonstrieren wir eine überlegene Fähigkeit, schädliche Antworten zu reduzieren und gleichzeitig die Modellleistung im Vergleich zu bestehenden wertausgerichteten Algorithmen zu verbessern. Experimentell haben wir Alpaca-7B mit Safe RLHF feinabgestimmt und an gesammelte menschliche Präferenzen angepasst, wodurch seine Hilfsbereitschaft und Schadlosigkeit laut menschlicher Bewertungen erheblich verbessert wurde.
English
With the development of large language models (LLMs), striking a balance between the performance and safety of AI systems has never been more critical. However, the inherent tension between the objectives of helpfulness and harmlessness presents a significant challenge during LLM training. To address this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly decouples human preferences regarding helpfulness and harmlessness, effectively avoiding the crowdworkers' confusion about the tension and allowing us to train separate reward and cost models. We formalize the safety concern of LLMs as an optimization task of maximizing the reward function while satisfying specified cost constraints. Leveraging the Lagrangian method to solve this constrained problem, Safe RLHF dynamically adjusts the balance between the two objectives during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we demonstrate a superior ability to mitigate harmful responses while enhancing model performance compared to existing value-aligned algorithms. Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with collected human preferences, significantly improving its helpfulness and harmlessness according to human evaluations.
PDF285December 15, 2024