ChatPaper.aiChatPaper

대규모 언어 모델 정렬을 위한 보상 변환 및 결합

Transforming and Combining Rewards for Aligning Large Language Models

February 1, 2024
저자: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI

초록

언어 모델을 인간의 선호도에 맞추기 위한 일반적인 접근 방식은 먼저 선호도 데이터로부터 보상 모델을 학습한 다음, 이 보상 모델을 사용하여 언어 모델을 업데이트하는 것이다. 본 연구에서는 이러한 접근 방식에서 발생하는 두 가지 밀접한 관련 문제를 탐구한다. 첫째, 보상 모델의 단조 변환은 선호도 순위를 보존한다; 다른 것들보다 "더 나은" 선택이 존재하는가? 둘째, 언어 모델을 여러 특성에 맞추고자 할 때, 여러 보상 모델을 어떻게 결합해야 하는가? 정렬 절차의 확률적 해석을 사용하여, Bradley-Terry 선호 모델로부터 학습된 보상(일반적인 경우)에 대한 자연스러운 변환 선택을 식별한다. 이 유도된 변환은 두 가지 중요한 특성을 가진다. 첫째, 이미 높은 점수를 받은 출력보다는 성능이 낮은 출력의 개선을 강조한다. 이는 일부 프롬프트가 개선되지 않는 언더피팅과 보상 모델의 오류를 악용하는 리워드 해킹을 모두 완화한다. 둘째, 합산을 논리적 접속사와 연결함으로써 보상의 원칙적인 집계를 가능하게 한다: 변환된 보상의 합은 출력이 측정된 모든 특성에서 "좋은" 상태일 확률에 해당하며, 이는 본 연구에서 정확히 정의한다. RLHF를 사용하여 언어 모델을 도움이 되고 무해하도록 정렬한 실험 결과, 기준(변환되지 않은) 접근 방식에 비해 상당한 개선이 확인되었다.
English
A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.
PDF121December 15, 2024