ChatPaper.aiChatPaper

Безопасное обучение с подкреплением на основе человеческой обратной связи (Safe RLHF)

Safe RLHF: Safe Reinforcement Learning from Human Feedback

October 19, 2023
Авторы: Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang
cs.AI

Аннотация

С развитием крупных языковых моделей (LLM) достижение баланса между производительностью и безопасностью ИИ-систем стало как никогда важным. Однако присущее противоречие между целями полезности и безвредности представляет собой значительную проблему в процессе обучения LLM. Для решения этой проблемы мы предлагаем Safe Reinforcement Learning from Human Feedback (Safe RLHF) — новый алгоритм для согласования с человеческими ценностями. Safe RLHF явно разделяет человеческие предпочтения относительно полезности и безвредности, эффективно устраняя путаницу среди краудворкеров, связанную с этим противоречием, и позволяя обучать отдельные модели вознаграждения и затрат. Мы формализуем проблему безопасности LLM как задачу оптимизации, направленную на максимизацию функции вознаграждения при соблюдении заданных ограничений по затратам. Используя метод Лагранжа для решения этой ограниченной задачи, Safe RLHF динамически регулирует баланс между двумя целями в процессе тонкой настройки. В ходе трехэтапной тонкой настройки с использованием Safe RLHF мы демонстрируем превосходную способность снижать вредоносные ответы, одновременно улучшая производительность модели по сравнению с существующими алгоритмами, согласованными с ценностями. Экспериментально мы настроили модель Alpaca-7B с помощью Safe RLHF, согласовав её с собранными человеческими предпочтениями, что значительно улучшило её полезность и безвредность согласно оценкам людей.
English
With the development of large language models (LLMs), striking a balance between the performance and safety of AI systems has never been more critical. However, the inherent tension between the objectives of helpfulness and harmlessness presents a significant challenge during LLM training. To address this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly decouples human preferences regarding helpfulness and harmlessness, effectively avoiding the crowdworkers' confusion about the tension and allowing us to train separate reward and cost models. We formalize the safety concern of LLMs as an optimization task of maximizing the reward function while satisfying specified cost constraints. Leveraging the Lagrangian method to solve this constrained problem, Safe RLHF dynamically adjusts the balance between the two objectives during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we demonstrate a superior ability to mitigate harmful responses while enhancing model performance compared to existing value-aligned algorithms. Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with collected human preferences, significantly improving its helpfulness and harmlessness according to human evaluations.
PDF285December 15, 2024