ChatPaper.aiChatPaper

DogeRM: 도메인 지식을 통합한 보상 모델 - 모델 병합을 통해

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

July 1, 2024
저자: Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
cs.AI

초록

인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 원하는 행동에 맞추기 위한 널리 사용되는 전략입니다. 보상 모델링은 RLHF에서 중요한 단계입니다. 그러나 보상 모델을 훈련하기 위해 쌍으로 된 선호도 데이터를 수집하는 것은 비용이 많이 들고 시간이 소요되는 작업이며, 특히 전문가 주석이 필요한 도메인 특화 선호도의 경우 더욱 그렇습니다. 이러한 문제를 해결하기 위해, 우리는 도메인 지식을 일반 보상 모델에 통합하는 새로운 프레임워크인 도메인 지식 통합 보상 모델(DogeRM)을 제안합니다. 실험 결과, DogeRM은 다양한 벤치마크에서 성능을 향상시키며, 모델 통합의 효과를 상세히 분석하여 모델 정렬을 촉진하는 데 큰 잠재력을 보여줍니다.
English
Reinforcement learning from human feedback (RLHF) is a popular strategy for aligning large language models (LLMs) with desired behaviors. Reward modeling is a crucial step in RLHF. However, collecting paired preference data for training reward models is often costly and time-consuming, especially for domain-specific preferences requiring expert annotation. To address this challenge, we propose the Domain knowledge merged Reward Model (DogeRM), a novel framework that integrates domain-specific knowledge into a general reward model by model merging. The experiments demonstrate that DogeRM enhances performance across different benchmarks and provide a detailed analysis showcasing the effects of model merging, showing the great potential of facilitating model alignment.

Summary

AI-Generated Summary

PDF61November 28, 2024