Secretos del RLHF en Modelos de Lenguaje a Gran Escala Parte II: Modelado de Recompensas

Resumen

El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) se ha convertido en una tecnología crucial para alinear los modelos de lenguaje con los valores e intenciones humanas, permitiendo que los modelos generen respuestas más útiles e inofensivas. Los modelos de recompensa se entrenan como proxies de las preferencias humanas para impulsar la optimización del aprendizaje por refuerzo. Aunque los modelos de recompensa suelen considerarse centrales para alcanzar un alto rendimiento, enfrentan los siguientes desafíos en aplicaciones prácticas: (1) Los pares de preferencias incorrectos y ambiguos en el conjunto de datos pueden dificultar que el modelo de recompensa capture con precisión la intención humana. (2) Los modelos de recompensa entrenados con datos de una distribución específica a menudo tienen dificultades para generalizar a ejemplos fuera de esa distribución y no son adecuados para el entrenamiento iterativo de RLHF. En este informe, intentamos abordar estos dos problemas. (1) Desde una perspectiva de datos, proponemos un método para medir la fuerza de las preferencias dentro de los datos, basado en un mecanismo de votación de múltiples modelos de recompensa. Los resultados experimentales confirman que los datos con diferentes fuerzas de preferencia tienen impactos distintos en el rendimiento del modelo de recompensa. Introducimos una serie de métodos novedosos para mitigar la influencia de preferencias incorrectas y ambiguas en el conjunto de datos y aprovechar al máximo los datos de preferencia de alta calidad. (2) Desde un punto de vista algorítmico, introducimos el aprendizaje contrastivo para mejorar la capacidad de los modelos de recompensa de distinguir entre respuestas elegidas y rechazadas, mejorando así la generalización del modelo. Además, empleamos el metaaprendizaje para permitir que el modelo de recompensa mantenga la capacidad de diferenciar sutiles diferencias en muestras fuera de la distribución, y este enfoque puede utilizarse para la optimización iterativa de RLHF.

English

Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.

Secretos del RLHF en Modelos de Lenguaje a Gran Escala Parte II: Modelado de Recompensas

Secrets of RLHF in Large Language Models Part II: Reward Modeling

Resumen

Support