Trasformazione e combinazione delle ricompense per l'allineamento dei grandi modelli linguistici
Transforming and Combining Rewards for Aligning Large Language Models
February 1, 2024
Autori: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI
Abstract
Un approccio comune per allineare i modelli linguistici alle preferenze umane consiste nel
prima apprendere un modello di ricompensa dai dati di preferenza, e poi utilizzare questo modello di ricompensa
per aggiornare il modello linguistico. Studiamo due problemi strettamente correlati che emergono
in questo approccio. In primo luogo, qualsiasi trasformazione monotona del modello di ricompensa
preserva la classifica delle preferenze; esiste una scelta che è "migliore" delle altre?
In secondo luogo, spesso desideriamo allineare i modelli linguistici a più proprietà: come
dovremmo combinare più modelli di ricompensa? Utilizzando un'interpretazione probabilistica
della procedura di allineamento, identifichiamo una scelta naturale per la trasformazione per
(il caso comune di) ricompense apprese da modelli di preferenza Bradley-Terry. Questa
trasformazione derivata ha due proprietà importanti. In primo luogo, enfatizza
il miglioramento degli output che performano male, piuttosto che quelli che già ottengono punteggi elevati.
Ciò mitiga sia l'underfitting (dove alcuni prompt non vengono migliorati)
che il reward hacking (dove il modello impara a sfruttare la misspecificazione del
modello di ricompensa). In secondo luogo, consente un'aggregazione principiata delle ricompense collegando
la somma alla congiunzione logica: la somma delle ricompense trasformate corrisponde alla
probabilità che l'output sia "buono" in tutte le proprietà misurate, in un senso
che rendiamo preciso. Esperimenti di allineamento di modelli linguistici per essere sia utili
che innocui utilizzando RLHF mostrano miglioramenti sostanziali rispetto all'approccio
baseline (non trasformato).
English
A common approach for aligning language models to human preferences is to
first learn a reward model from preference data, and then use this reward model
to update the language model. We study two closely related problems that arise
in this approach. First, any monotone transformation of the reward model
preserves preference ranking; is there a choice that is ``better'' than others?
Second, we often wish to align language models to multiple properties: how
should we combine multiple reward models? Using a probabilistic interpretation
of the alignment procedure, we identify a natural choice for transformation for
(the common case of) rewards learned from Bradley-Terry preference models. This
derived transformation has two important properties. First, it emphasizes
improving poorly-performing outputs, rather than outputs that already score
well. This mitigates both underfitting (where some prompts are not improved)
and reward hacking (where the model learns to exploit misspecification of the
reward model). Second, it enables principled aggregation of rewards by linking
summation to logical conjunction: the sum of transformed rewards corresponds to
the probability that the output is ``good'' in all measured properties, in a
sense we make precise. Experiments aligning language models to be both helpful
and harmless using RLHF show substantial improvements over the baseline
(non-transformed) approach.