DogeRM: Dotando a los Modelos de Recompensa con Conocimiento de Dominio mediante la Fusión de Modelos

Resumen

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) es una estrategia popular para alinear modelos de lenguaje de gran escala (LLMs) con comportamientos deseados. La modelización de recompensas es un paso crucial en RLHF. Sin embargo, la recopilación de datos de preferencias pareadas para entrenar modelos de recompensa suele ser costosa y requiere mucho tiempo, especialmente para preferencias específicas de dominio que necesitan anotación experta. Para abordar este desafío, proponemos el Modelo de Recompensa con Conocimiento de Dominio Integrado (DogeRM), un marco novedoso que integra conocimiento específico del dominio en un modelo de recompensa general mediante la fusión de modelos. Los experimentos demuestran que DogeRM mejora el rendimiento en diferentes benchmarks y proporcionan un análisis detallado que muestra los efectos de la fusión de modelos, evidenciando el gran potencial de facilitar la alineación de modelos.

English

Reinforcement learning from human feedback (RLHF) is a popular strategy for aligning large language models (LLMs) with desired behaviors. Reward modeling is a crucial step in RLHF. However, collecting paired preference data for training reward models is often costly and time-consuming, especially for domain-specific preferences requiring expert annotation. To address this challenge, we propose the Domain knowledge merged Reward Model (DogeRM), a novel framework that integrates domain-specific knowledge into a general reward model by model merging. The experiments demonstrate that DogeRM enhances performance across different benchmarks and provide a detailed analysis showcasing the effects of model merging, showing the great potential of facilitating model alignment.

DogeRM: Dotando a los Modelos de Recompensa con Conocimiento de Dominio mediante la Fusión de Modelos

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Resumen

Support