DogeRM: Ausstattung von Reward-Modellen mit Domänenwissen durch Modellfusion
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
Autoren: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
Zusammenfassung
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) ist eine beliebte Strategie zur Ausrichtung großer Sprachmodelle (LLMs) auf gewünschte Verhaltensweisen. Die Reward-Modellierung ist ein entscheidender Schritt bei RLHF. Das Sammeln von paarweisen Präferenzdaten zur Schulung von Reward-Modellen ist jedoch oft kostspielig und zeitaufwändig, insbesondere bei domänenspezifischen Präferenzen, die eine Expertenannotation erfordern. Um diese Herausforderung anzugehen, schlagen wir das Domainwissen fusionierte Reward-Modell (DogeRM) vor, ein neuartiges Framework, das domänenspezifisches Wissen in ein allgemeines Reward-Modell durch Modellfusion integriert. Die Experimente zeigen, dass DogeRM die Leistung über verschiedene Benchmarks hinweg verbessert und eine detaillierte Analyse der Auswirkungen der Modellfusion liefert, was das große Potenzial zur Erleichterung der Modellausrichtung aufzeigt.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.Summary
AI-Generated Summary