RLHF Seguro: Aprendizado por Reforço Seguro a partir de Feedback Humano
Safe RLHF: Safe Reinforcement Learning from Human Feedback
October 19, 2023
Autores: Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang
cs.AI
Resumo
Com o desenvolvimento de grandes modelos de linguagem (LLMs), encontrar um equilíbrio entre o desempenho e a segurança dos sistemas de IA nunca foi tão crucial. No entanto, a tensão inerente entre os objetivos de utilidade e inofensividade representa um desafio significativo durante o treinamento de LLMs. Para abordar essa questão, propomos o Aprendizado por Reforço Seguro com Feedback Humano (Safe RLHF), um algoritmo inovador para alinhamento de valores humanos. O Safe RLHF desacopla explicitamente as preferências humanas em relação à utilidade e à inofensividade, evitando efetivamente a confusão dos trabalhadores sobre essa tensão e permitindo que treinemos modelos de recompensa e custo separadamente. Formalizamos a preocupação com a segurança dos LLMs como uma tarefa de otimização que maximiza a função de recompensa enquanto satisfaz restrições de custo especificadas. Utilizando o método Lagrangiano para resolver esse problema restrito, o Safe RLHF ajusta dinamicamente o equilíbrio entre os dois objetivos durante o ajuste fino. Por meio de três rodadas de ajuste fino usando o Safe RLHF, demonstramos uma capacidade superior de mitigar respostas prejudiciais enquanto melhoramos o desempenho do modelo em comparação com algoritmos existentes de alinhamento de valores. Experimentalmente, ajustamos o Alpaca-7B usando o Safe RLHF e o alinhamos com preferências humanas coletadas, melhorando significativamente sua utilidade e inofensividade de acordo com avaliações humanas.
English
With the development of large language models (LLMs), striking a balance
between the performance and safety of AI systems has never been more critical.
However, the inherent tension between the objectives of helpfulness and
harmlessness presents a significant challenge during LLM training. To address
this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe
RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly
decouples human preferences regarding helpfulness and harmlessness, effectively
avoiding the crowdworkers' confusion about the tension and allowing us to train
separate reward and cost models. We formalize the safety concern of LLMs as an
optimization task of maximizing the reward function while satisfying specified
cost constraints. Leveraging the Lagrangian method to solve this constrained
problem, Safe RLHF dynamically adjusts the balance between the two objectives
during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we
demonstrate a superior ability to mitigate harmful responses while enhancing
model performance compared to existing value-aligned algorithms.
Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with
collected human preferences, significantly improving its helpfulness and
harmlessness according to human evaluations.