DogeRM: モデルマージによるドメイン知識を備えた報酬モデルの構築
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
著者: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
要旨
人間のフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を所望の振る舞いに整合させるための一般的な戦略である。報酬モデリングはRLHFにおける重要なステップである。しかし、報酬モデルの訓練用にペアの選好データを収集することは、特に専門家の注釈を必要とするドメイン固有の選好において、コストと時間がかかる場合が多い。この課題に対処するため、我々はドメイン知識を統合した報酬モデル(DogeRM)を提案する。これは、モデルマージングによってドメイン固有の知識を汎用報酬モデルに統合する新しいフレームワークである。実験の結果、DogeRMが様々なベンチマークで性能を向上させることが示され、モデルマージングの効果を詳細に分析することで、モデル整合を促進する大きな可能性が示された。
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.Summary
AI-Generated Summary