ChatPaper.aiChatPaper

Modellazione delle preferenze generali con rappresentazioni delle preferenze per allineare i modelli linguistici

General Preference Modeling with Preference Representations for Aligning Language Models

October 3, 2024
Autori: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI

Abstract

Modellare le preferenze umane è cruciale per allineare i modelli di base con i valori umani. I metodi tradizionali di modellazione del reward, come il modello di reward di Bradley-Terry (BT), risultano carenti in termini di espressività, in particolare nel trattare le preferenze intransitive. Sebbene i modelli di preferenza di coppia supervisionati (PairPM) possano esprimere preferenze generali, la loro implementazione è altamente ad-hoc e non può garantire una probabilità di preferenza coerente delle coppie confrontate. Inoltre, impongono elevati costi computazionali a causa della complessità delle query quadratiche quando si confrontano molte risposte. In questo articolo, introduciamo l'apprendimento della rappresentazione delle preferenze, un approccio che incorpora le risposte in uno spazio latente per catturare in modo efficiente strutture di preferenza intricate, raggiungendo una complessità di query lineare. Inoltre, proponiamo l'ottimizzazione delle preferenze generali basata sul punteggio di preferenza (GPO), che generalizza il reinforcement learning basato sul reward dai feedback umani. I risultati sperimentali mostrano che il nostro modello di rappresentazione delle preferenze generali (GPM) supera il modello di reward BT sul benchmark RewardBench con un margine fino al 5,6% e modella efficacemente preferenze cicliche in cui qualsiasi modello di reward BT si comporta come una congettura casuale. Inoltre, le valutazioni su compiti successivi come AlpacaEval2.0 e MT-Bench, seguendo il post-training del modello linguistico con GPO e il nostro modello di preferenza generale, rivelano consistenti miglioramenti delle prestazioni con margini fino al 9,3%. Questi risultati indicano che il nostro metodo potrebbe migliorare l'allineamento dei modelli di base con i valori umani sfumati. Il codice è disponibile su https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with human values. Traditional reward modeling methods, such as the Bradley-Terry (BT) reward model, fall short in expressiveness, particularly in addressing intransitive preferences. Although supervised pair preference models (PairPM) can express general preferences, their implementation is highly ad-hoc and cannot guarantee a consistent preference probability of compared pairs. Additionally, they impose high computational costs due to their quadratic query complexity when comparing multiple responses. In this paper, we introduce preference representation learning, an approach that embeds responses into a latent space to capture intricate preference structures efficiently, achieving linear query complexity. Additionally, we propose preference score-based General Preference Optimization (GPO), which generalizes reward-based reinforcement learning from human feedback. Experimental results show that our General Preference representation model (GPM) outperforms the BT reward model on the RewardBench benchmark with a margin of up to 5.6% and effectively models cyclic preferences where any BT reward model behaves like a random guess. Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and MT-Bench, following the language model post-training with GPO and our general preference model, reveal substantial performance improvements with margins up to 9.3%. These findings indicate that our method may enhance the alignment of foundation models with nuanced human values. The code is available at https://github.com/general-preference/general-preference-model.
PDF94November 16, 2024