DogeRM: Ausstattung von Reward-Modellen mit Domänenwissen durch Modellfusion

papers.abstract

Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) ist eine beliebte Strategie zur Ausrichtung großer Sprachmodelle (LLMs) auf gewünschte Verhaltensweisen. Die Reward-Modellierung ist ein entscheidender Schritt bei RLHF. Das Sammeln von paarweisen Präferenzdaten zur Schulung von Reward-Modellen ist jedoch oft kostspielig und zeitaufwändig, insbesondere bei domänenspezifischen Präferenzen, die eine Expertenannotation erfordern. Um diese Herausforderung anzugehen, schlagen wir das Domainwissen fusionierte Reward-Modell (DogeRM) vor, ein neuartiges Framework, das domänenspezifisches Wissen in ein allgemeines Reward-Modell durch Modellfusion integriert. Die Experimente zeigen, dass DogeRM die Leistung über verschiedene Benchmarks hinweg verbessert und eine detaillierte Analyse der Auswirkungen der Modellfusion liefert, was das große Potenzial zur Erleichterung der Modellausrichtung aufzeigt.

English

Reinforcement learning from human feedback (RLHF) is a popular strategy for aligning large language models (LLMs) with desired behaviors. Reward modeling is a crucial step in RLHF. However, collecting paired preference data for training reward models is often costly and time-consuming, especially for domain-specific preferences requiring expert annotation. To address this challenge, we propose the Domain knowledge merged Reward Model (DogeRM), a novel framework that integrates domain-specific knowledge into a general reward model by model merging. The experiments demonstrate that DogeRM enhances performance across different benchmarks and provide a detailed analysis showcasing the effects of model merging, showing the great potential of facilitating model alignment.

DogeRM: Ausstattung von Reward-Modellen mit Domänenwissen durch Modellfusion

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

papers.abstract

Support