DogeRM: Dotando a los Modelos de Recompensa con Conocimiento de Dominio mediante la Fusión de Modelos
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
Autores: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
Resumen
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) es una estrategia popular para alinear modelos de lenguaje de gran escala (LLMs) con comportamientos deseados. La modelización de recompensas es un paso crucial en RLHF. Sin embargo, la recopilación de datos de preferencias pareadas para entrenar modelos de recompensa suele ser costosa y requiere mucho tiempo, especialmente para preferencias específicas de dominio que necesitan anotación experta. Para abordar este desafío, proponemos el Modelo de Recompensa con Conocimiento de Dominio Integrado (DogeRM), un marco novedoso que integra conocimiento específico del dominio en un modelo de recompensa general mediante la fusión de modelos. Los experimentos demuestran que DogeRM mejora el rendimiento en diferentes benchmarks y proporcionan un análisis detallado que muestra los efectos de la fusión de modelos, evidenciando el gran potencial de facilitar la alineación de modelos.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.Summary
AI-Generated Summary