Modelagem de Preferência Geral com Representações de Preferência para Alinhar Modelos de Linguagem
General Preference Modeling with Preference Representations for Aligning Language Models
October 3, 2024
Autores: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI
Resumo
Modelar preferências humanas é crucial para alinhar modelos fundamentais com
valores humanos. Métodos tradicionais de modelagem de recompensa, como o modelo de recompensa Bradley-Terry (BT), são limitados em expressividade, especialmente na abordagem de preferências intransitivas. Embora modelos supervisionados de preferência de pares (PairPM) possam expressar preferências gerais, sua implementação é altamente ad hoc e não pode garantir uma probabilidade consistente de preferência entre pares comparados. Além disso, eles impõem altos custos computacionais devido à sua complexidade de consulta quadrática ao comparar múltiplas respostas. Neste artigo, introduzimos a aprendizagem de representação de preferência, uma abordagem que incorpora respostas em um espaço latente para capturar estruturas de preferência complexas de forma eficiente, alcançando uma complexidade de consulta linear. Adicionalmente, propomos a Otimização de Preferência Geral (GPO) baseada em escores de preferência, que generaliza a aprendizagem por reforço baseada em recompensa a partir do feedback humano. Resultados experimentais mostram que nosso modelo de representação de preferência geral (GPM) supera o modelo de recompensa BT no benchmark RewardBench com uma margem de até 5,6% e modela efetivamente preferências cíclicas onde qualquer modelo de recompensa BT se comporta como uma suposição aleatória. Além disso, avaliações em tarefas subsequentes como AlpacaEval2.0 e MT-Bench, seguindo o pós-treinamento do modelo de preferência geral com GPO, revelam melhorias de desempenho substanciais com margens de até 9,3%. Essas descobertas indicam que nosso método pode aprimorar o alinhamento de modelos fundamentais com valores humanos sutis. O código está disponível em https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with
human values. Traditional reward modeling methods, such as the Bradley-Terry
(BT) reward model, fall short in expressiveness, particularly in addressing
intransitive preferences. Although supervised pair preference models (PairPM)
can express general preferences, their implementation is highly ad-hoc and
cannot guarantee a consistent preference probability of compared pairs.
Additionally, they impose high computational costs due to their quadratic query
complexity when comparing multiple responses. In this paper, we introduce
preference representation learning, an approach that embeds responses into a
latent space to capture intricate preference structures efficiently, achieving
linear query complexity. Additionally, we propose preference score-based
General Preference Optimization (GPO), which generalizes reward-based
reinforcement learning from human feedback. Experimental results show that our
General Preference representation model (GPM) outperforms the BT reward model
on the RewardBench benchmark with a margin of up to 5.6% and effectively models
cyclic preferences where any BT reward model behaves like a random guess.
Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and
MT-Bench, following the language model post-training with GPO and our general
preference model, reveal substantial performance improvements with margins up
to 9.3%. These findings indicate that our method may enhance the alignment of
foundation models with nuanced human values. The code is available at
https://github.com/general-preference/general-preference-model.Summary
AI-Generated Summary