Safe RLHF: Apprendimento per Rinforzo Sicuro da Feedback Umano

Abstract

Con lo sviluppo dei grandi modelli linguistici (LLM), trovare un equilibrio tra le prestazioni e la sicurezza dei sistemi di intelligenza artificiale non è mai stato così cruciale. Tuttavia, la tensione intrinseca tra gli obiettivi di utilità e innocuità rappresenta una sfida significativa durante l'addestramento degli LLM. Per affrontare questo problema, proponiamo il Safe Reinforcement Learning from Human Feedback (Safe RLHF), un nuovo algoritmo per l'allineamento ai valori umani. Safe RLHF separa esplicitamente le preferenze umane riguardo all'utilità e all'innocuità, evitando efficacemente la confusione dei lavoratori sulla tensione tra i due obiettivi e permettendoci di addestrare modelli di ricompensa e costo separati. Formalizziamo il problema della sicurezza degli LLM come un'attività di ottimizzazione che massimizza la funzione di ricompensa rispettando vincoli di costo specifici. Utilizzando il metodo Lagrangiano per risolvere questo problema vincolato, Safe RLHF regola dinamicamente l'equilibrio tra i due obiettivi durante il fine-tuning. Attraverso un fine-tuning in tre fasi con Safe RLHF, dimostriamo una capacità superiore di mitigare risposte dannose migliorando al contempo le prestazioni del modello rispetto agli algoritmi esistenti allineati ai valori. Sperimentalmente, abbiamo applicato il fine-tuning al modello Alpaca-7B utilizzando Safe RLHF e lo abbiamo allineato alle preferenze umane raccolte, ottenendo un miglioramento significativo in termini di utilità e innocuità secondo le valutazioni umane.

English

With the development of large language models (LLMs), striking a balance between the performance and safety of AI systems has never been more critical. However, the inherent tension between the objectives of helpfulness and harmlessness presents a significant challenge during LLM training. To address this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly decouples human preferences regarding helpfulness and harmlessness, effectively avoiding the crowdworkers' confusion about the tension and allowing us to train separate reward and cost models. We formalize the safety concern of LLMs as an optimization task of maximizing the reward function while satisfying specified cost constraints. Leveraging the Lagrangian method to solve this constrained problem, Safe RLHF dynamically adjusts the balance between the two objectives during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we demonstrate a superior ability to mitigate harmful responses while enhancing model performance compared to existing value-aligned algorithms. Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with collected human preferences, significantly improving its helpfulness and harmlessness according to human evaluations.

Safe RLHF: Apprendimento per Rinforzo Sicuro da Feedback Umano

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Abstract

Support