DogeRM : Renforcer les modèles de récompense avec des connaissances spécifiques grâce à la fusion de modèles
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
Auteurs: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) est une stratégie populaire pour aligner les grands modèles de langage (LLM) sur des comportements souhaités. La modélisation des récompenses constitue une étape cruciale dans le RLHF. Cependant, la collecte de données de préférences appariées pour entraîner les modèles de récompense est souvent coûteuse et chronophage, en particulier pour les préférences spécifiques à un domaine nécessitant une annotation experte. Pour relever ce défi, nous proposons le Domain knowledge merged Reward Model (DogeRM), un cadre novateur qui intègre des connaissances spécifiques à un domaine dans un modèle de récompense général par fusion de modèles. Les expériences démontrent que DogeRM améliore les performances sur différents benchmarks et fournissent une analyse détaillée mettant en lumière les effets de la fusion de modèles, révélant ainsi le grand potentiel de cette approche pour faciliter l'alignement des modèles.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.Summary
AI-Generated Summary