DogeRM: Potenziare i Modelli di Ricompensa con Conoscenza di Dominio attraverso la Fusione di Modelli

Abstract

L'apprendimento per rinforzo basato sul feedback umano (RLHF) è una strategia popolare per allineare i grandi modelli linguistici (LLM) con comportamenti desiderati. La modellazione della ricompensa è un passaggio cruciale nel RLHF. Tuttavia, la raccolta di dati di preferenza accoppiati per addestrare i modelli di ricompensa è spesso costosa e dispendiosa in termini di tempo, specialmente per preferenze specifiche di dominio che richiedono annotazioni di esperti. Per affrontare questa sfida, proponiamo il Domain knowledge merged Reward Model (DogeRM), un nuovo framework che integra conoscenze specifiche del dominio in un modello di ricompensa generale attraverso la fusione di modelli. Gli esperimenti dimostrano che DogeRM migliora le prestazioni su diversi benchmark e fornisce un'analisi dettagliata che mostra gli effetti della fusione di modelli, evidenziando il grande potenziale di facilitare l'allineamento dei modelli.

English

Reinforcement learning from human feedback (RLHF) is a popular strategy for aligning large language models (LLMs) with desired behaviors. Reward modeling is a crucial step in RLHF. However, collecting paired preference data for training reward models is often costly and time-consuming, especially for domain-specific preferences requiring expert annotation. To address this challenge, we propose the Domain knowledge merged Reward Model (DogeRM), a novel framework that integrates domain-specific knowledge into a general reward model by model merging. The experiments demonstrate that DogeRM enhances performance across different benchmarks and provide a detailed analysis showcasing the effects of model merging, showing the great potential of facilitating model alignment.

DogeRM: Potenziare i Modelli di Ricompensa con Conoscenza di Dominio attraverso la Fusione di Modelli

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Abstract

Support