DogeRM : Renforcer les modèles de récompense avec des connaissances spécifiques grâce à la fusion de modèles

papers.abstract

L'apprentissage par renforcement à partir de retours humains (RLHF) est une stratégie populaire pour aligner les grands modèles de langage (LLM) sur des comportements souhaités. La modélisation des récompenses constitue une étape cruciale dans le RLHF. Cependant, la collecte de données de préférences appariées pour entraîner les modèles de récompense est souvent coûteuse et chronophage, en particulier pour les préférences spécifiques à un domaine nécessitant une annotation experte. Pour relever ce défi, nous proposons le Domain knowledge merged Reward Model (DogeRM), un cadre novateur qui intègre des connaissances spécifiques à un domaine dans un modèle de récompense général par fusion de modèles. Les expériences démontrent que DogeRM améliore les performances sur différents benchmarks et fournissent une analyse détaillée mettant en lumière les effets de la fusion de modèles, révélant ainsi le grand potentiel de cette approche pour faciliter l'alignement des modèles.

English

Reinforcement learning from human feedback (RLHF) is a popular strategy for aligning large language models (LLMs) with desired behaviors. Reward modeling is a crucial step in RLHF. However, collecting paired preference data for training reward models is often costly and time-consuming, especially for domain-specific preferences requiring expert annotation. To address this challenge, we propose the Domain knowledge merged Reward Model (DogeRM), a novel framework that integrates domain-specific knowledge into a general reward model by model merging. The experiments demonstrate that DogeRM enhances performance across different benchmarks and provide a detailed analysis showcasing the effects of model merging, showing the great potential of facilitating model alignment.

DogeRM : Renforcer les modèles de récompense avec des connaissances spécifiques grâce à la fusion de modèles

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

papers.abstract

Support