Modellazione delle preferenze generali con rappresentazioni delle preferenze per allineare i modelli linguistici
General Preference Modeling with Preference Representations for Aligning Language Models
October 3, 2024
Autori: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI
Abstract
Modellare le preferenze umane è cruciale per allineare i modelli di base con i valori umani. I metodi tradizionali di modellazione del reward, come il modello di reward di Bradley-Terry (BT), risultano carenti in termini di espressività, in particolare nel trattare le preferenze intransitive. Sebbene i modelli di preferenza di coppia supervisionati (PairPM) possano esprimere preferenze generali, la loro implementazione è altamente ad-hoc e non può garantire una probabilità di preferenza coerente delle coppie confrontate. Inoltre, impongono elevati costi computazionali a causa della complessità delle query quadratiche quando si confrontano molte risposte. In questo articolo, introduciamo l'apprendimento della rappresentazione delle preferenze, un approccio che incorpora le risposte in uno spazio latente per catturare in modo efficiente strutture di preferenza intricate, raggiungendo una complessità di query lineare. Inoltre, proponiamo l'ottimizzazione delle preferenze generali basata sul punteggio di preferenza (GPO), che generalizza il reinforcement learning basato sul reward dai feedback umani. I risultati sperimentali mostrano che il nostro modello di rappresentazione delle preferenze generali (GPM) supera il modello di reward BT sul benchmark RewardBench con un margine fino al 5,6% e modella efficacemente preferenze cicliche in cui qualsiasi modello di reward BT si comporta come una congettura casuale. Inoltre, le valutazioni su compiti successivi come AlpacaEval2.0 e MT-Bench, seguendo il post-training del modello linguistico con GPO e il nostro modello di preferenza generale, rivelano consistenti miglioramenti delle prestazioni con margini fino al 9,3%. Questi risultati indicano che il nostro metodo potrebbe migliorare l'allineamento dei modelli di base con i valori umani sfumati. Il codice è disponibile su https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with
human values. Traditional reward modeling methods, such as the Bradley-Terry
(BT) reward model, fall short in expressiveness, particularly in addressing
intransitive preferences. Although supervised pair preference models (PairPM)
can express general preferences, their implementation is highly ad-hoc and
cannot guarantee a consistent preference probability of compared pairs.
Additionally, they impose high computational costs due to their quadratic query
complexity when comparing multiple responses. In this paper, we introduce
preference representation learning, an approach that embeds responses into a
latent space to capture intricate preference structures efficiently, achieving
linear query complexity. Additionally, we propose preference score-based
General Preference Optimization (GPO), which generalizes reward-based
reinforcement learning from human feedback. Experimental results show that our
General Preference representation model (GPM) outperforms the BT reward model
on the RewardBench benchmark with a margin of up to 5.6% and effectively models
cyclic preferences where any BT reward model behaves like a random guess.
Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and
MT-Bench, following the language model post-training with GPO and our general
preference model, reveal substantial performance improvements with margins up
to 9.3%. These findings indicate that our method may enhance the alignment of
foundation models with nuanced human values. The code is available at
https://github.com/general-preference/general-preference-model.