SLiC-HF: Calibrazione della Probabilità Sequenziale con Feedback Umano
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
May 17, 2023
Autori: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI
Abstract
L'apprendimento dal feedback umano si è dimostrato efficace nell'allineare i modelli linguistici alle preferenze umane. Le ricerche precedenti si sono spesso basate sul Reinforcement Learning from Human Feedback (RLHF), che ottimizza il modello linguistico utilizzando punteggi di ricompensa assegnati da un modello di ricompensa addestrato su dati di preferenze umane. In questo lavoro dimostriamo come il recentemente introdotto Sequence Likelihood Calibration (SLiC) possa essere utilizzato anche per apprendere efficacemente dalle preferenze umane (SLiC-HF). Inoltre, mostriamo che ciò può essere fatto con dati di feedback umano raccolti per un modello diverso, simile ai dati RL offline e off-policy. Esperimenti di valutazione automatica e umana sul task di riassunto TL;DR dimostrano che SLiC-HF migliora significativamente i baseline di fine-tuning supervisionato. Inoltre, SLiC-HF rappresenta un'alternativa competitiva all'implementazione PPO RLHF utilizzata in precedenza, pur essendo molto più semplice da implementare, più facile da ottimizzare e più efficiente dal punto di vista computazionale nella pratica.
English
Learning from human feedback has been shown to be effective at aligning
language models with human preferences. Past work has often relied on
Reinforcement Learning from Human Feedback (RLHF), which optimizes the language
model using reward scores assigned from a reward model trained on human
preference data. In this work we show how the recently introduced Sequence
Likelihood Calibration (SLiC), can also be used to effectively learn from human
preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human
feedback data collected for a different model, similar to off-policy, offline
RL data. Automatic and human evaluation experiments on the TL;DR summarization
task show that SLiC-HF significantly improves supervised fine-tuning baselines.
Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF
implementation used in past work while being much simpler to implement, easier
to tune and more computationally efficient in practice.