DogeRM: Potenziare i Modelli di Ricompensa con Conoscenza di Dominio attraverso la Fusione di Modelli
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
Autori: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
Abstract
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è una strategia popolare per allineare i grandi modelli linguistici (LLM) con comportamenti desiderati. La modellazione della ricompensa è un passaggio cruciale nel RLHF. Tuttavia, la raccolta di dati di preferenza accoppiati per addestrare i modelli di ricompensa è spesso costosa e dispendiosa in termini di tempo, specialmente per preferenze specifiche di dominio che richiedono annotazioni di esperti. Per affrontare questa sfida, proponiamo il Domain knowledge merged Reward Model (DogeRM), un nuovo framework che integra conoscenze specifiche del dominio in un modello di ricompensa generale attraverso la fusione di modelli. Gli esperimenti dimostrano che DogeRM migliora le prestazioni su diversi benchmark e fornisce un'analisi dettagliata che mostra gli effetti della fusione di modelli, evidenziando il grande potenziale di facilitare l'allineamento dei modelli.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.