SLiC-HF: Sequenzwahrscheinlichkeitskalibrierung mit menschlichem Feedback
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
May 17, 2023
Autoren: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI
Zusammenfassung
Das Lernen aus menschlichem Feedback hat sich als effektiv erwiesen, um Sprachmodelle mit menschlichen Präferenzen in Einklang zu bringen. Frühere Arbeiten stützten sich häufig auf Reinforcement Learning from Human Feedback (RLHF), das das Sprachmodell optimiert, indem es Belohnungswerte verwendet, die von einem Belohnungsmodell zugewiesen werden, das auf menschlichen Präferenzdaten trainiert wurde. In dieser Arbeit zeigen wir, wie die kürzlich eingeführte Sequence Likelihood Calibration (SLiC) ebenfalls effektiv genutzt werden kann, um aus menschlichen Präferenzen zu lernen (SLiC-HF). Darüber hinaus demonstrieren wir, dass dies mit menschlichem Feedback möglich ist, das für ein anderes Modell gesammelt wurde, ähnlich wie bei Off-Policy- und Offline-RL-Daten. Automatische und menschliche Evaluierungsexperimente zur TL;DR-Zusammenfassungsaufgabe zeigen, dass SLiC-HF die Baseline des überwachten Feinabstimmens deutlich verbessert. Zudem stellt SLiC-HF eine wettbewerbsfähige Alternative zur PPO-RLHF-Implementierung dar, die in früheren Arbeiten verwendet wurde, während es in der Praxis viel einfacher zu implementieren, leichter abzustimmen und recheneffizienter ist.
English
Learning from human feedback has been shown to be effective at aligning
language models with human preferences. Past work has often relied on
Reinforcement Learning from Human Feedback (RLHF), which optimizes the language
model using reward scores assigned from a reward model trained on human
preference data. In this work we show how the recently introduced Sequence
Likelihood Calibration (SLiC), can also be used to effectively learn from human
preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human
feedback data collected for a different model, similar to off-policy, offline
RL data. Automatic and human evaluation experiments on the TL;DR summarization
task show that SLiC-HF significantly improves supervised fine-tuning baselines.
Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF
implementation used in past work while being much simpler to implement, easier
to tune and more computationally efficient in practice.