Modelado de Preferencias Generales con Representaciones de Preferencias para Alinear Modelos de Lenguaje
General Preference Modeling with Preference Representations for Aligning Language Models
October 3, 2024
Autores: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI
Resumen
Modelar las preferencias humanas es crucial para alinear los modelos base con los valores humanos. Los métodos tradicionales de modelado de recompensas, como el modelo de recompensa de Bradley-Terry (BT), son limitados en cuanto a expresividad, especialmente para abordar preferencias intransitivas. Aunque los modelos de preferencia de pares supervisados (PairPM) pueden expresar preferencias generales, su implementación es altamente ad hoc y no puede garantizar una probabilidad de preferencia consistente de los pares comparados. Además, imponen altos costos computacionales debido a su complejidad cuadrática de consulta al comparar múltiples respuestas. En este documento, presentamos el aprendizaje de representación de preferencias, un enfoque que incrusta respuestas en un espacio latente para capturar estructuras de preferencia intrincadas de manera eficiente, logrando una complejidad lineal de consulta. Además, proponemos la Optimización General de Preferencias (GPO) basada en puntuaciones de preferencias, que generaliza el aprendizaje por refuerzo basado en recompensas a partir de la retroalimentación humana. Los resultados experimentales muestran que nuestro modelo de representación de preferencias generales (GPM) supera al modelo de recompensa BT en el banco de pruebas RewardBench con un margen de hasta un 5.6% y modela eficazmente preferencias cíclicas donde cualquier modelo de recompensa BT se comporta como una conjetura aleatoria. Además, las evaluaciones en tareas posteriores como AlpacaEval2.0 y MT-Bench, siguiendo el post-entrenamiento del modelo de lenguaje con GPO y nuestro modelo de preferencias generales, revelan mejoras sustanciales en el rendimiento con márgenes de hasta un 9.3%. Estos hallazgos indican que nuestro método puede mejorar la alineación de los modelos base con valores humanos matizados. El código está disponible en https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with
human values. Traditional reward modeling methods, such as the Bradley-Terry
(BT) reward model, fall short in expressiveness, particularly in addressing
intransitive preferences. Although supervised pair preference models (PairPM)
can express general preferences, their implementation is highly ad-hoc and
cannot guarantee a consistent preference probability of compared pairs.
Additionally, they impose high computational costs due to their quadratic query
complexity when comparing multiple responses. In this paper, we introduce
preference representation learning, an approach that embeds responses into a
latent space to capture intricate preference structures efficiently, achieving
linear query complexity. Additionally, we propose preference score-based
General Preference Optimization (GPO), which generalizes reward-based
reinforcement learning from human feedback. Experimental results show that our
General Preference representation model (GPM) outperforms the BT reward model
on the RewardBench benchmark with a margin of up to 5.6% and effectively models
cyclic preferences where any BT reward model behaves like a random guess.
Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and
MT-Bench, following the language model post-training with GPO and our general
preference model, reveal substantial performance improvements with margins up
to 9.3%. These findings indicate that our method may enhance the alignment of
foundation models with nuanced human values. The code is available at
https://github.com/general-preference/general-preference-model.Summary
AI-Generated Summary