대규모 언어 모델 정렬을 위한 보상 변환 및 결합
Transforming and Combining Rewards for Aligning Large Language Models
February 1, 2024
저자: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI
초록
언어 모델을 인간의 선호도에 맞추기 위한 일반적인 접근 방식은 먼저 선호도 데이터로부터 보상 모델을 학습한 다음, 이 보상 모델을 사용하여 언어 모델을 업데이트하는 것이다. 본 연구에서는 이러한 접근 방식에서 발생하는 두 가지 밀접한 관련 문제를 탐구한다. 첫째, 보상 모델의 단조 변환은 선호도 순위를 보존한다; 다른 것들보다 "더 나은" 선택이 존재하는가? 둘째, 언어 모델을 여러 특성에 맞추고자 할 때, 여러 보상 모델을 어떻게 결합해야 하는가? 정렬 절차의 확률적 해석을 사용하여, Bradley-Terry 선호 모델로부터 학습된 보상(일반적인 경우)에 대한 자연스러운 변환 선택을 식별한다. 이 유도된 변환은 두 가지 중요한 특성을 가진다. 첫째, 이미 높은 점수를 받은 출력보다는 성능이 낮은 출력의 개선을 강조한다. 이는 일부 프롬프트가 개선되지 않는 언더피팅과 보상 모델의 오류를 악용하는 리워드 해킹을 모두 완화한다. 둘째, 합산을 논리적 접속사와 연결함으로써 보상의 원칙적인 집계를 가능하게 한다: 변환된 보상의 합은 출력이 측정된 모든 특성에서 "좋은" 상태일 확률에 해당하며, 이는 본 연구에서 정확히 정의한다. RLHF를 사용하여 언어 모델을 도움이 되고 무해하도록 정렬한 실험 결과, 기준(변환되지 않은) 접근 방식에 비해 상당한 개선이 확인되었다.
English
A common approach for aligning language models to human preferences is to
first learn a reward model from preference data, and then use this reward model
to update the language model. We study two closely related problems that arise
in this approach. First, any monotone transformation of the reward model
preserves preference ranking; is there a choice that is ``better'' than others?
Second, we often wish to align language models to multiple properties: how
should we combine multiple reward models? Using a probabilistic interpretation
of the alignment procedure, we identify a natural choice for transformation for
(the common case of) rewards learned from Bradley-Terry preference models. This
derived transformation has two important properties. First, it emphasizes
improving poorly-performing outputs, rather than outputs that already score
well. This mitigates both underfitting (where some prompts are not improved)
and reward hacking (where the model learns to exploit misspecification of the
reward model). Second, it enables principled aggregation of rewards by linking
summation to logical conjunction: the sum of transformed rewards corresponds to
the probability that the output is ``good'' in all measured properties, in a
sense we make precise. Experiments aligning language models to be both helpful
and harmless using RLHF show substantial improvements over the baseline
(non-transformed) approach.