ODIN: 분리된 보상이 RLHF의 해킹을 완화한다
ODIN: Disentangled Reward Mitigates Hacking in RLHF
February 11, 2024
저자: Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
초록
본 연구에서는 인간 피드백을 통한 강화 학습(RLHF)에서 대형 언어 모델(LLMs)의 응답 길이와 관련된 보상 해킹 문제를 다룬다. 잘 구성되고 장황하지만 도움이 되지 않는 LLM의 응답은 종종 LLM 또는 심지어 인간 평가자를 속여 높은 점수를 얻는 데 성공한다. 이와 동일한 문제는 RL의 일부 보상 모델에서도 발생한다. 이러한 훈련 및 평가 과정에서의 문제를 해결하기 위해, 우리는 다양한 훈련 하이퍼파라미터를 조정하여 얻은 LLM 평가 점수와 응답 길이 간의 상충 관계를 검토하는 더 신뢰할 수 있는 평가 프로토콜을 설립하였다. 이 평가를 바탕으로, 우리는 대규모 연구를 수행하여 하이퍼파라미터와 RL에서 사용된 기법들이 길이 편향을 완화하는 데 얼마나 효과적인지에 대한 통찰을 얻었다. 또한, 우리는 공유된 특징 표현을 기반으로 두 개의 선형 헤드를 함께 훈련시켜 보상을 예측하는 방식을 제안한다. 하나는 길이와 상관관계를 가지도록 훈련되고, 다른 하나는 길이와의 상관관계를 제거하여 실제 내용에 더 초점을 맞추도록 훈련된다. 이후, RL에서 길이 헤드를 제거함으로써 길이에 대한 보상 해킹을 방지한다. 실험 결과, 우리의 접근 방식은 길이와 보상 간의 상관관계를 거의 제거하였으며, 획득한 정책을 상당히 개선하였다.
English
In this work, we study the issue of reward hacking on the response length, a
challenge emerging in Reinforcement Learning from Human Feedback (RLHF) on
LLMs. A well-formatted, verbose but less helpful response from the LLMs can
often deceive LLMs or even human evaluators to achieve high scores. The same
issue also holds for some reward models in RL. To address the challenges in
both training and evaluation, we establish a more reliable evaluation protocol
for comparing different training configurations, which inspects the trade-off
between LLM evaluation score and response length obtained by varying training
hyperparameters. Based on this evaluation, we conduct large-scale studies,
where the results shed insights into the efficacy of hyperparameters and tricks
used in RL on mitigating length bias. We further propose to improve the reward
model by jointly training two linear heads on shared feature representations to
predict the rewards, one trained to correlate with length, and the other
trained to decorrelate with length and therefore focus more on the actual
content. We then discard the length head in RL to prevent reward hacking on
length. Experiments demonstrate that our approach almost eliminates the reward
correlation with length, and improves the obtained policy by a significant
margin.