DogeRM: Обогащение моделей вознаграждения знаниями области с помощью слияния моделей
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
July 1, 2024
Авторы: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI
Аннотация
Обучение с подкреплением на основе обратной связи от человека (RLHF) является популярной стратегией для выравнивания больших языковых моделей (LLM) с желаемыми поведенческими характеристиками. Моделирование вознаграждения является ключевым этапом в RLHF. Однако сбор сопоставленных данных о предпочтениях для обучения моделей вознаграждения часто является затратным и времязатратным, особенно для предпочтений, требующих экспертной аннотации в определенной области. Для решения этой проблемы мы предлагаем модель вознаграждения, объединяющую знания области (DogeRM), новую концепцию, интегрирующую областно-специфические знания в общую модель вознаграждения путем слияния моделей. Эксперименты показывают, что DogeRM повышает производительность на различных тестах и предоставляют детальный анализ, демонстрирующий эффекты слияния моделей и показывающий большой потенциал в облегчении выравнивания моделей.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for
aligning large language models (LLMs) with desired behaviors. Reward modeling
is a crucial step in RLHF. However, collecting paired preference data for
training reward models is often costly and time-consuming, especially for
domain-specific preferences requiring expert annotation. To address this
challenge, we propose the Domain knowledge merged
Reward Model (DogeRM), a novel framework that integrates
domain-specific knowledge into a general reward model by model merging. The
experiments demonstrate that DogeRM enhances performance across different
benchmarks and provide a detailed analysis showcasing the effects of model
merging, showing the great potential of facilitating model alignment.Summary
AI-Generated Summary