DogeRM: Equipando Modelos de Recompensa com Conhecimento de Domínio através da Fusão de Modelos
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
Autores: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
Resumo
A aprendizagem por reforço a partir do feedback humano (RLHF) é uma estratégia popular para alinhar grandes modelos de linguagem (LLMs) com comportamentos desejados. A modelagem de recompensa é um passo crucial na RLHF. No entanto, coletar dados de preferência em pares para treinar modelos de recompensa é frequentemente custoso e demorado, especialmente para preferências específicas de domínio que exigem anotação de especialistas. Para enfrentar esse desafio, propomos o Modelo de Recompensa Fundido com Conhecimento de Domínio (DogeRM), um novo framework que integra conhecimento específico de domínio em um modelo de recompensa geral por meio da fusão de modelos. Os experimentos demonstram que o DogeRM melhora o desempenho em diferentes benchmarks e fornecem uma análise detalhada mostrando os efeitos da fusão de modelos, mostrando o grande potencial de facilitar o alinhamento do modelo.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.