DogeRM: Het uitrusten van beloningsmodellen met domeinkennis door middel van modelintegratie
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
Auteurs: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
Samenvatting
Reinforcement learning met menselijke feedback (RLHF) is een populaire strategie om grote taalmmodellen (LLMs) af te stemmen op gewenst gedrag. Beloningsmodellering is een cruciale stap in RLHF. Het verzamelen van gepaarde voorkeursdata voor het trainen van beloningsmodellen is echter vaak kostbaar en tijdrovend, vooral voor domeinspecifieke voorkeuren die expertannotatie vereisen. Om deze uitdaging aan te pakken, stellen we het Domain knowledge merged Reward Model (DogeRM) voor, een nieuw framework dat domeinspecifieke kennis integreert in een algemeen beloningsmodel door middel van modelmerging. De experimenten tonen aan dat DogeRM de prestaties verbetert op verschillende benchmarks en bieden een gedetailleerde analyse die de effecten van modelmerging laat zien, wat het grote potentieel aantoont om modelafstemming te vergemakkelijken.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.