Transformando e Combinando Recompensas para Alinhar Modelos de Linguagem de Grande Escala
Transforming and Combining Rewards for Aligning Large Language Models
February 1, 2024
Autores: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI
Resumo
Uma abordagem comum para alinhar modelos de linguagem às preferências humanas é primeiro aprender um modelo de recompensa a partir de dados de preferência e, em seguida, usar esse modelo de recompensa para atualizar o modelo de linguagem. Estudamos dois problemas intimamente relacionados que surgem nessa abordagem. Primeiro, qualquer transformação monotônica do modelo de recompensa preserva a classificação de preferência; existe uma escolha que é "melhor" do que outras? Segundo, frequentemente desejamos alinhar modelos de linguagem a múltiplas propriedades: como devemos combinar múltiplos modelos de recompensa? Usando uma interpretação probabilística do procedimento de alinhamento, identificamos uma escolha natural para a transformação (no caso comum) de recompensas aprendidas a partir de modelos de preferência de Bradley-Terry. Essa transformação derivada possui duas propriedades importantes. Primeiro, ela enfatiza a melhoria de saídas com desempenho ruim, em vez de saídas que já pontuam bem. Isso mitiga tanto o subajuste (onde algumas instruções não são melhoradas) quanto o hacking de recompensa (onde o modelo aprende a explorar a má especificação do modelo de recompensa). Segundo, ela permite uma agregação fundamentada de recompensas ao vincular a soma à conjunção lógica: a soma das recompensas transformadas corresponde à probabilidade de que a saída seja "boa" em todas as propriedades medidas, em um sentido que precisamos. Experimentos alinhando modelos de linguagem para serem úteis e inofensivos usando RLHF mostram melhorias substanciais em relação à abordagem de linha de base (não transformada).
English
A common approach for aligning language models to human preferences is to
first learn a reward model from preference data, and then use this reward model
to update the language model. We study two closely related problems that arise
in this approach. First, any monotone transformation of the reward model
preserves preference ranking; is there a choice that is ``better'' than others?
Second, we often wish to align language models to multiple properties: how
should we combine multiple reward models? Using a probabilistic interpretation
of the alignment procedure, we identify a natural choice for transformation for
(the common case of) rewards learned from Bradley-Terry preference models. This
derived transformation has two important properties. First, it emphasizes
improving poorly-performing outputs, rather than outputs that already score
well. This mitigates both underfitting (where some prompts are not improved)
and reward hacking (where the model learns to exploit misspecification of the
reward model). Second, it enables principled aggregation of rewards by linking
summation to logical conjunction: the sum of transformed rewards corresponds to
the probability that the output is ``good'' in all measured properties, in a
sense we make precise. Experiments aligning language models to be both helpful
and harmless using RLHF show substantial improvements over the baseline
(non-transformed) approach.