ChatPaper.aiChatPaper

LLMにおける過信の抑制: RLHFにおける報酬キャリブレーション

Taming Overconfidence in LLMs: Reward Calibration in RLHF

October 13, 2024
著者: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI

要旨

言語モデルのキャリブレーションとは、モデルの信頼度とその応答の実際のパフォーマンスとの整合性を指します。以前の研究では、大規模言語モデル(LLM)における過信現象を指摘し、人間のフィードバックからの強化学習(RLHF)で訓練されたLLMがよりシャープな出力確率で過信していることを示していますが、本研究では、RLHFがモデルを自身の応答において口頭での過信を表現する傾向があることを明らかにします。この過信の根本的な原因を調査し、Proximal Policy Optimization(PPO)で使用される報酬モデルが、応答の実際の品質に関係なく高い信頼スコアに対する固有のバイアスを示すことを示します。この洞察を基に、PPO-M: キャリブレーションされた報酬モデリングを備えたPPOとPPO-C: キャリブレーションされた報酬計算を提案します。PPO-Mは、報酬モデルのトレーニングに明示的な信頼度スコアを統合し、応答品質と口頭での信頼度との整合性をより適切に捉えるように報酬モデルをキャリブレートします。PPO-Cは、PPO中に報酬スコアを、現在の報酬と過去の報酬の移動平均との差に基づいて調整します。PPO-MとPPO-Cの両方は、現行のPPOパイプラインにシームレスに統合でき、追加の正解ラベルは必要ありません。私たちの手法を、複数選択肢やオープンエンド生成を含む6つの異なるデータセットを対象に、Llama3-8BとMistral-7Bで評価します。実験結果は、私たちの両手法がキャリブレーションエラーを減少させ、標準的なPPOと同等のパフォーマンスを維持できることを示しています。さらに、オープンエンドの会話設定においてモデルの能力を損なわないことも示しています。
English
Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the moving average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experiment results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they do not compromise model capabilities in open-ended conversation settings.

Summary

AI-Generated Summary

PDF32November 16, 2024