Un error común en la alineación de modelos de lenguaje basados en márgenes: Entrelazamiento de gradientes.

Resumen

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) se ha convertido en el enfoque predominante para el alineamiento de modelos de lenguaje (LM). En su núcleo, RLHF utiliza una pérdida basada en márgenes para la optimización de preferencias, especificando el comportamiento ideal del LM solo por la diferencia entre las respuestas preferidas y no preferidas. En este artículo, identificamos una trampa común de los métodos basados en márgenes: la falta de especificación del comportamiento ideal del LM en respuestas preferidas y no preferidas individualmente, lo que conlleva a dos consecuencias no deseadas a medida que el margen aumenta: (1) La probabilidad de respuestas no preferidas (por ejemplo, inseguras) puede aumentar, lo que resulta en posibles fallos de alineación de seguridad. (2) La probabilidad de respuestas preferidas puede disminuir, incluso cuando esas respuestas son ideales. Desmitificamos las razones detrás de estos comportamientos problemáticos: las pérdidas basadas en márgenes acoplan el cambio en la probabilidad preferida al gradiente de la no preferida, y viceversa, a menudo evitando que la probabilidad preferida aumente mientras que la no preferida disminuye, y provocando así un aumento o disminución sincronizados en ambas probabilidades. Denominamos a este efecto, inherente en los objetivos basados en márgenes, entrelazamiento de gradientes. Formalmente, derivamos condiciones para objetivos generales de alineación basados en márgenes bajo los cuales el entrelazamiento de gradientes se vuelve preocupante: el producto interno de los gradientes de las log-probabilidades preferidas y no preferidas es grande en relación con las normas de los gradientes individuales. Investigamos teóricamente por qué tales productos internos pueden ser grandes al alinear modelos de lenguaje y validamos empíricamente nuestros hallazgos. Las implicaciones empíricas de nuestro marco se extienden a explicar diferencias importantes en la dinámica de entrenamiento de varios algoritmos de optimización de preferencias, y sugieren diseños de algoritmos potenciales para mitigar el problema de falta de especificación de los métodos basados en márgenes y así mejorar el alineamiento de modelos de lenguaje.

English

Reinforcement Learning from Human Feedback (RLHF) has become the predominant approach for language model (LM) alignment. At its core, RLHF uses a margin-based loss for preference optimization, specifying ideal LM behavior only by the difference between preferred and dispreferred responses. In this paper, we identify a common pitfall of margin-based methods -- the under-specification of ideal LM behavior on preferred and dispreferred responses individually, which leads to two unintended consequences as the margin increases: (1) The probability of dispreferred (e.g., unsafe) responses may increase, resulting in potential safety alignment failures. (2) The probability of preferred responses may decrease, even when those responses are ideal. We demystify the reasons behind these problematic behaviors: margin-based losses couple the change in the preferred probability to the gradient of the dispreferred one, and vice versa, often preventing the preferred probability from increasing while the dispreferred one decreases, and thus causing a synchronized increase or decrease in both probabilities. We term this effect, inherent in margin-based objectives, gradient entanglement. Formally, we derive conditions for general margin-based alignment objectives under which gradient entanglement becomes concerning: the inner product of the gradients of preferred and dispreferred log-probabilities is large relative to the individual gradient norms. We theoretically investigate why such inner products can be large when aligning language models and empirically validate our findings. Empirical implications of our framework extend to explaining important differences in the training dynamics of various preference optimization algorithms, and suggesting potential algorithm designs to mitigate the under-specification issue of margin-based methods and thereby improving language model alignment.

Un error común en la alineación de modelos de lenguaje basados en márgenes: Entrelazamiento de gradientes.

A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Resumen

Support