ChatPaper.aiChatPaper

大規模言語モデルにおけるRLHFの秘密 パートII:報酬モデリング

Secrets of RLHF in Large Language Models Part II: Reward Modeling

January 11, 2024
著者: Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI

要旨

人間のフィードバックによる強化学習(RLHF)は、言語モデルを人間の価値観や意図に整合させる重要な技術として確立され、モデルがより有益で安全な応答を生成することを可能にしている。報酬モデルは人間の選好を代理するものとして訓練され、強化学習の最適化を駆動する。報酬モデルは高い性能達成の要とされがちだが、実際の応用では以下の課題に直面している:(1)データセット内の誤った曖昧な選好ペアが、報酬モデルが人間の意図を正確に捉えることを妨げる可能性がある。(2)特定の分布に基づくデータで訓練された報酬モデルは、その分布外の事例への一般化が困難であり、反復的なRLHF訓練には適さない傾向がある。 本報告ではこれらの2つの課題に取り組む。(1)データの観点から、複数報酬モデルの投票機制に基づいてデータ内の選好強度を測定する手法を提案する。実験結果により、選好強度が異なるデータが報酬モデルの性能に与える影響が異なることを確認した。データセット内の誤った曖昧な選好の影響を軽減し、高品質な選好データを最大限に活用するための一連の新手法を導入する。(2)アルゴリズムの観点から、対照学習を導入して報酬モデルが選択応答と拒否応答を識別する能力を強化し、モデルの一般化性能を向上させる。さらにメタ学習を採用することで、報酬モデルが分布外サンプルにおける微妙な差異を識別する能力を維持できるようにし、このアプローチを反復的なRLHF最適化に活用する。
English
Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.
PDF274April 9, 2026