ChatPaper.aiChatPaper

LLMにおける報酬に頑健なRLHF

Reward-Robust RLHF in LLMs

September 18, 2024
著者: Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
cs.AI

要旨

大規模言語モデル(LLM)がより高度な知能形態に向けて進化する中で、人間のフィードバックからの強化学習(RLHF)が人工汎用知能(AGI)の達成に向けた重要な経路としてますます注目されています。ただし、報酬モデル(RM)に基づくアラインメント手法への依存は、報酬モデル(RM)の固有の不安定性や欠陥に起因する重大な問題、報酬ハッキングや人間の意図との不一致などの問題を引き起こす可能性があります。本論文では、これらの基本的な課題に対処するための報酬に強いRLHFフレームワークを紹介し、LLMにおけるより信頼性の高い学習を可能にする道を開いています。当該手法は、報酬関数の不確実性集合をモデル化するためにベイズ報酬モデルアンサンブル(BRME)を組み込むことで、パフォーマンスと頑健性を慎重にバランスさせる新しい最適化目的を導入しています。これにより、架空のパフォーマンスと最小報酬信号の両方を統合することで、不完全な報酬モデルでもより安定した学習を実現しています。実証結果は、当該フレームワークが多様なベンチマークにおいて従来のRLHFを一貫して上回り、向上した精度と長期的な安定性を示しています。また、定数報酬設定の安定性に近づくことを証明する理論的分析を提供し、確率的ケース分析において有効であることを示しています。これらの貢献は、フレームワークがLLMのRLHFとのアラインメントのパフォーマンスと安定性の両方を向上させる潜在能力を示しています。
English
As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect reward models. Empirical results demonstrate that our framework consistently outperforms traditional RLHF across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be effective in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment with RLHF.

Summary

AI-Generated Summary

PDF62November 16, 2024