Transformación y combinación de recompensas para alinear modelos de lenguaje de gran escala
Transforming and Combining Rewards for Aligning Large Language Models
February 1, 2024
Autores: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI
Resumen
Un enfoque común para alinear los modelos de lenguaje con las preferencias humanas consiste en primero aprender un modelo de recompensa a partir de datos de preferencias, y luego utilizar este modelo de recompensa para actualizar el modelo de lenguaje. Estudiamos dos problemas estrechamente relacionados que surgen en este enfoque. Primero, cualquier transformación monótona del modelo de recompensa preserva el orden de preferencias; ¿existe una elección que sea "mejor" que otras? Segundo, a menudo deseamos alinear los modelos de lenguaje con múltiples propiedades: ¿cómo deberíamos combinar múltiples modelos de recompensa? Utilizando una interpretación probabilística del procedimiento de alineación, identificamos una elección natural para la transformación en el caso común de recompensas aprendidas a partir de modelos de preferencias de Bradley-Terry. Esta transformación derivada tiene dos propiedades importantes. Primero, enfatiza la mejora de salidas con bajo rendimiento, en lugar de aquellas que ya obtienen puntuaciones altas. Esto mitiga tanto el subajuste (donde algunas indicaciones no mejoran) como el hackeo de recompensas (donde el modelo aprende a explotar la mala especificación del modelo de recompensa). Segundo, permite una agregación fundamentada de recompensas al vincular la suma con la conjunción lógica: la suma de las recompensas transformadas corresponde a la probabilidad de que la salida sea "buena" en todas las propiedades medidas, en un sentido que precisamos. Los experimentos de alineación de modelos de lenguaje para ser tanto útiles como inofensivos utilizando RLHF muestran mejoras sustanciales sobre el enfoque base (sin transformación).
English
A common approach for aligning language models to human preferences is to
first learn a reward model from preference data, and then use this reward model
to update the language model. We study two closely related problems that arise
in this approach. First, any monotone transformation of the reward model
preserves preference ranking; is there a choice that is ``better'' than others?
Second, we often wish to align language models to multiple properties: how
should we combine multiple reward models? Using a probabilistic interpretation
of the alignment procedure, we identify a natural choice for transformation for
(the common case of) rewards learned from Bradley-Terry preference models. This
derived transformation has two important properties. First, it emphasizes
improving poorly-performing outputs, rather than outputs that already score
well. This mitigates both underfitting (where some prompts are not improved)
and reward hacking (where the model learns to exploit misspecification of the
reward model). Second, it enables principled aggregation of rewards by linking
summation to logical conjunction: the sum of transformed rewards corresponds to
the probability that the output is ``good'' in all measured properties, in a
sense we make precise. Experiments aligning language models to be both helpful
and harmless using RLHF show substantial improvements over the baseline
(non-transformed) approach.