Trasformazione e combinazione delle ricompense per l'allineamento dei grandi modelli linguistici

Abstract

Un approccio comune per allineare i modelli linguistici alle preferenze umane consiste nel prima apprendere un modello di ricompensa dai dati di preferenza, e poi utilizzare questo modello di ricompensa per aggiornare il modello linguistico. Studiamo due problemi strettamente correlati che emergono in questo approccio. In primo luogo, qualsiasi trasformazione monotona del modello di ricompensa preserva la classifica delle preferenze; esiste una scelta che è "migliore" delle altre? In secondo luogo, spesso desideriamo allineare i modelli linguistici a più proprietà: come dovremmo combinare più modelli di ricompensa? Utilizzando un'interpretazione probabilistica della procedura di allineamento, identifichiamo una scelta naturale per la trasformazione per (il caso comune di) ricompense apprese da modelli di preferenza Bradley-Terry. Questa trasformazione derivata ha due proprietà importanti. In primo luogo, enfatizza il miglioramento degli output che performano male, piuttosto che quelli che già ottengono punteggi elevati. Ciò mitiga sia l'underfitting (dove alcuni prompt non vengono migliorati) che il reward hacking (dove il modello impara a sfruttare la misspecificazione del modello di ricompensa). In secondo luogo, consente un'aggregazione principiata delle ricompense collegando la somma alla congiunzione logica: la somma delle ricompense trasformate corrisponde alla probabilità che l'output sia "buono" in tutte le proprietà misurate, in un senso che rendiamo preciso. Esperimenti di allineamento di modelli linguistici per essere sia utili che innocui utilizzando RLHF mostrano miglioramenti sostanziali rispetto all'approccio baseline (non trasformato).

English

A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.

Trasformazione e combinazione delle ricompense per l'allineamento dei grandi modelli linguistici

Transforming and Combining Rewards for Aligning Large Language Models

Abstract

Support