Secretos del RLHF en Modelos de Lenguaje a Gran Escala Parte II: Modelado de Recompensas
Secrets of RLHF in Large Language Models Part II: Reward Modeling
January 11, 2024
Autores: Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumen
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) se ha convertido en una tecnología crucial para alinear los modelos de lenguaje con los valores e intenciones humanas, permitiendo que los modelos generen respuestas más útiles e inofensivas. Los modelos de recompensa se entrenan como proxies de las preferencias humanas para impulsar la optimización del aprendizaje por refuerzo. Aunque los modelos de recompensa suelen considerarse centrales para alcanzar un alto rendimiento, enfrentan los siguientes desafíos en aplicaciones prácticas: (1) Los pares de preferencias incorrectos y ambiguos en el conjunto de datos pueden dificultar que el modelo de recompensa capture con precisión la intención humana. (2) Los modelos de recompensa entrenados con datos de una distribución específica a menudo tienen dificultades para generalizar a ejemplos fuera de esa distribución y no son adecuados para el entrenamiento iterativo de RLHF.
En este informe, intentamos abordar estos dos problemas. (1) Desde una perspectiva de datos, proponemos un método para medir la fuerza de las preferencias dentro de los datos, basado en un mecanismo de votación de múltiples modelos de recompensa. Los resultados experimentales confirman que los datos con diferentes fuerzas de preferencia tienen impactos distintos en el rendimiento del modelo de recompensa. Introducimos una serie de métodos novedosos para mitigar la influencia de preferencias incorrectas y ambiguas en el conjunto de datos y aprovechar al máximo los datos de preferencia de alta calidad. (2) Desde un punto de vista algorítmico, introducimos el aprendizaje contrastivo para mejorar la capacidad de los modelos de recompensa de distinguir entre respuestas elegidas y rechazadas, mejorando así la generalización del modelo. Además, empleamos el metaaprendizaje para permitir que el modelo de recompensa mantenga la capacidad de diferenciar sutiles diferencias en muestras fuera de la distribución, y este enfoque puede utilizarse para la optimización iterativa de RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has become a crucial
technology for aligning language models with human values and intentions,
enabling models to produce more helpful and harmless responses. Reward models
are trained as proxies for human preferences to drive reinforcement learning
optimization. While reward models are often considered central to achieving
high performance, they face the following challenges in practical applications:
(1) Incorrect and ambiguous preference pairs in the dataset may hinder the
reward model from accurately capturing human intent. (2) Reward models trained
on data from a specific distribution often struggle to generalize to examples
outside that distribution and are not suitable for iterative RLHF training.
In this report, we attempt to address these two issues. (1) From a data
perspective, we propose a method to measure the strength of preferences within
the data, based on a voting mechanism of multiple reward models. Experimental
results confirm that data with varying preference strengths have different
impacts on reward model performance. We introduce a series of novel methods to
mitigate the influence of incorrect and ambiguous preferences in the dataset
and fully leverage high-quality preference data. (2) From an algorithmic
standpoint, we introduce contrastive learning to enhance the ability of reward
models to distinguish between chosen and rejected responses, thereby improving
model generalization. Furthermore, we employ meta-learning to enable the reward
model to maintain the ability to differentiate subtle differences in
out-of-distribution samples, and this approach can be utilized for iterative
RLHF optimization.