Un error común en la alineación de modelos de lenguaje basados en márgenes: Entrelazamiento de gradientes.
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement
October 17, 2024
Autores: Hui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi
cs.AI
Resumen
El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) se ha convertido en el enfoque predominante para el alineamiento de modelos de lenguaje (LM). En su núcleo, RLHF utiliza una pérdida basada en márgenes para la optimización de preferencias, especificando el comportamiento ideal del LM solo por la diferencia entre las respuestas preferidas y no preferidas. En este artículo, identificamos una trampa común de los métodos basados en márgenes: la falta de especificación del comportamiento ideal del LM en respuestas preferidas y no preferidas individualmente, lo que conlleva a dos consecuencias no deseadas a medida que el margen aumenta: (1) La probabilidad de respuestas no preferidas (por ejemplo, inseguras) puede aumentar, lo que resulta en posibles fallos de alineación de seguridad. (2) La probabilidad de respuestas preferidas puede disminuir, incluso cuando esas respuestas son ideales. Desmitificamos las razones detrás de estos comportamientos problemáticos: las pérdidas basadas en márgenes acoplan el cambio en la probabilidad preferida al gradiente de la no preferida, y viceversa, a menudo evitando que la probabilidad preferida aumente mientras que la no preferida disminuye, y provocando así un aumento o disminución sincronizados en ambas probabilidades. Denominamos a este efecto, inherente en los objetivos basados en márgenes, entrelazamiento de gradientes. Formalmente, derivamos condiciones para objetivos generales de alineación basados en márgenes bajo los cuales el entrelazamiento de gradientes se vuelve preocupante: el producto interno de los gradientes de las log-probabilidades preferidas y no preferidas es grande en relación con las normas de los gradientes individuales. Investigamos teóricamente por qué tales productos internos pueden ser grandes al alinear modelos de lenguaje y validamos empíricamente nuestros hallazgos. Las implicaciones empíricas de nuestro marco se extienden a explicar diferencias importantes en la dinámica de entrenamiento de varios algoritmos de optimización de preferencias, y sugieren diseños de algoritmos potenciales para mitigar el problema de falta de especificación de los métodos basados en márgenes y así mejorar el alineamiento de modelos de lenguaje.
English
Reinforcement Learning from Human Feedback (RLHF) has become the predominant
approach for language model (LM) alignment. At its core, RLHF uses a
margin-based loss for preference optimization, specifying ideal LM behavior
only by the difference between preferred and dispreferred responses. In this
paper, we identify a common pitfall of margin-based methods -- the
under-specification of ideal LM behavior on preferred and dispreferred
responses individually, which leads to two unintended consequences as the
margin increases: (1) The probability of dispreferred (e.g., unsafe) responses
may increase, resulting in potential safety alignment failures. (2) The
probability of preferred responses may decrease, even when those responses are
ideal. We demystify the reasons behind these problematic behaviors:
margin-based losses couple the change in the preferred probability to the
gradient of the dispreferred one, and vice versa, often preventing the
preferred probability from increasing while the dispreferred one decreases, and
thus causing a synchronized increase or decrease in both probabilities. We term
this effect, inherent in margin-based objectives, gradient entanglement.
Formally, we derive conditions for general margin-based alignment objectives
under which gradient entanglement becomes concerning: the inner product of the
gradients of preferred and dispreferred log-probabilities is large relative to
the individual gradient norms. We theoretically investigate why such inner
products can be large when aligning language models and empirically validate
our findings. Empirical implications of our framework extend to explaining
important differences in the training dynamics of various preference
optimization algorithms, and suggesting potential algorithm designs to mitigate
the under-specification issue of margin-based methods and thereby improving
language model alignment.Summary
AI-Generated Summary