Transformación y combinación de recompensas para alinear modelos de lenguaje de gran escala

Resumen

Un enfoque común para alinear los modelos de lenguaje con las preferencias humanas consiste en primero aprender un modelo de recompensa a partir de datos de preferencias, y luego utilizar este modelo de recompensa para actualizar el modelo de lenguaje. Estudiamos dos problemas estrechamente relacionados que surgen en este enfoque. Primero, cualquier transformación monótona del modelo de recompensa preserva el orden de preferencias; ¿existe una elección que sea "mejor" que otras? Segundo, a menudo deseamos alinear los modelos de lenguaje con múltiples propiedades: ¿cómo deberíamos combinar múltiples modelos de recompensa? Utilizando una interpretación probabilística del procedimiento de alineación, identificamos una elección natural para la transformación en el caso común de recompensas aprendidas a partir de modelos de preferencias de Bradley-Terry. Esta transformación derivada tiene dos propiedades importantes. Primero, enfatiza la mejora de salidas con bajo rendimiento, en lugar de aquellas que ya obtienen puntuaciones altas. Esto mitiga tanto el subajuste (donde algunas indicaciones no mejoran) como el hackeo de recompensas (donde el modelo aprende a explotar la mala especificación del modelo de recompensa). Segundo, permite una agregación fundamentada de recompensas al vincular la suma con la conjunción lógica: la suma de las recompensas transformadas corresponde a la probabilidad de que la salida sea "buena" en todas las propiedades medidas, en un sentido que precisamos. Los experimentos de alineación de modelos de lenguaje para ser tanto útiles como inofensivos utilizando RLHF muestran mejoras sustanciales sobre el enfoque base (sin transformación).

English

A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.

Transformación y combinación de recompensas para alinear modelos de lenguaje de gran escala

Transforming and Combining Rewards for Aligning Large Language Models

Resumen

Support