DogeRM: Het uitrusten van beloningsmodellen met domeinkennis door middel van modelintegratie

Samenvatting

Reinforcement learning met menselijke feedback (RLHF) is een populaire strategie om grote taalmmodellen (LLMs) af te stemmen op gewenst gedrag. Beloningsmodellering is een cruciale stap in RLHF. Het verzamelen van gepaarde voorkeursdata voor het trainen van beloningsmodellen is echter vaak kostbaar en tijdrovend, vooral voor domeinspecifieke voorkeuren die expertannotatie vereisen. Om deze uitdaging aan te pakken, stellen we het Domain knowledge merged Reward Model (DogeRM) voor, een nieuw framework dat domeinspecifieke kennis integreert in een algemeen beloningsmodel door middel van modelmerging. De experimenten tonen aan dat DogeRM de prestaties verbetert op verschillende benchmarks en bieden een gedetailleerde analyse die de effecten van modelmerging laat zien, wat het grote potentieel aantoont om modelafstemming te vergemakkelijken.

English

Reinforcement learning from human feedback (RLHF) is a popular strategy for aligning large language models (LLMs) with desired behaviors. Reward modeling is a crucial step in RLHF. However, collecting paired preference data for training reward models is often costly and time-consuming, especially for domain-specific preferences requiring expert annotation. To address this challenge, we propose the Domain knowledge merged Reward Model (DogeRM), a novel framework that integrates domain-specific knowledge into a general reward model by model merging. The experiments demonstrate that DogeRM enhances performance across different benchmarks and provide a detailed analysis showcasing the effects of model merging, showing the great potential of facilitating model alignment.

DogeRM: Het uitrusten van beloningsmodellen met domeinkennis door middel van modelintegratie

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Samenvatting

Support