Modelagem de Preferência Geral com Representações de Preferência para Alinhar Modelos de Linguagem

Resumo

Modelar preferências humanas é crucial para alinhar modelos fundamentais com valores humanos. Métodos tradicionais de modelagem de recompensa, como o modelo de recompensa Bradley-Terry (BT), são limitados em expressividade, especialmente na abordagem de preferências intransitivas. Embora modelos supervisionados de preferência de pares (PairPM) possam expressar preferências gerais, sua implementação é altamente ad hoc e não pode garantir uma probabilidade consistente de preferência entre pares comparados. Além disso, eles impõem altos custos computacionais devido à sua complexidade de consulta quadrática ao comparar múltiplas respostas. Neste artigo, introduzimos a aprendizagem de representação de preferência, uma abordagem que incorpora respostas em um espaço latente para capturar estruturas de preferência complexas de forma eficiente, alcançando uma complexidade de consulta linear. Adicionalmente, propomos a Otimização de Preferência Geral (GPO) baseada em escores de preferência, que generaliza a aprendizagem por reforço baseada em recompensa a partir do feedback humano. Resultados experimentais mostram que nosso modelo de representação de preferência geral (GPM) supera o modelo de recompensa BT no benchmark RewardBench com uma margem de até 5,6% e modela efetivamente preferências cíclicas onde qualquer modelo de recompensa BT se comporta como uma suposição aleatória. Além disso, avaliações em tarefas subsequentes como AlpacaEval2.0 e MT-Bench, seguindo o pós-treinamento do modelo de preferência geral com GPO, revelam melhorias de desempenho substanciais com margens de até 9,3%. Essas descobertas indicam que nosso método pode aprimorar o alinhamento de modelos fundamentais com valores humanos sutis. O código está disponível em https://github.com/general-preference/general-preference-model.

English

Modeling human preferences is crucial for aligning foundation models with human values. Traditional reward modeling methods, such as the Bradley-Terry (BT) reward model, fall short in expressiveness, particularly in addressing intransitive preferences. Although supervised pair preference models (PairPM) can express general preferences, their implementation is highly ad-hoc and cannot guarantee a consistent preference probability of compared pairs. Additionally, they impose high computational costs due to their quadratic query complexity when comparing multiple responses. In this paper, we introduce preference representation learning, an approach that embeds responses into a latent space to capture intricate preference structures efficiently, achieving linear query complexity. Additionally, we propose preference score-based General Preference Optimization (GPO), which generalizes reward-based reinforcement learning from human feedback. Experimental results show that our General Preference representation model (GPM) outperforms the BT reward model on the RewardBench benchmark with a margin of up to 5.6% and effectively models cyclic preferences where any BT reward model behaves like a random guess. Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and MT-Bench, following the language model post-training with GPO and our general preference model, reveal substantial performance improvements with margins up to 9.3%. These findings indicate that our method may enhance the alignment of foundation models with nuanced human values. The code is available at https://github.com/general-preference/general-preference-model.

Modelagem de Preferência Geral com Representações de Preferência para Alinhar Modelos de Linguagem

General Preference Modeling with Preference Representations for Aligning Language Models

Resumo

Support