SLiC-HF: Sequentiële Waarschijnlijkheidskalibratie met Menselijke Feedback
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
May 17, 2023
Auteurs: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI
Samenvatting
Leren van menselijke feedback is effectief gebleken bij het afstemmen van taalmodelen op menselijke voorkeuren. Eerder werk heeft vaak vertrouwd op Reinforcement Learning from Human Feedback (RLHF), waarbij het taalmodel wordt geoptimaliseerd met behulp van beloningsscores toegekend door een beloningsmodel dat is getraind op menselijke voorkeursdata. In dit werk laten we zien hoe de recent geïntroduceerde Sequence Likelihood Calibration (SLiC) ook effectief kan worden gebruikt om te leren van menselijke voorkeuren (SLiC-HF). Bovendien demonstreren we dat dit kan worden gedaan met menselijke feedbackdata die is verzameld voor een ander model, vergelijkbaar met off-policy, offline RL-data. Experimenten met automatische en menselijke evaluatie op de TL;DR-samenvattings-taak laten zien dat SLiC-HF de supervised fine-tuning-baselines aanzienlijk verbetert. Daarnaast biedt SLiC-HF een competitief alternatief voor de PPO RLHF-implementatie die in eerder werk is gebruikt, terwijl het veel eenvoudiger te implementeren is, gemakkelijker af te stemmen en in de praktijk computationeel efficiënter.
English
Learning from human feedback has been shown to be effective at aligning
language models with human preferences. Past work has often relied on
Reinforcement Learning from Human Feedback (RLHF), which optimizes the language
model using reward scores assigned from a reward model trained on human
preference data. In this work we show how the recently introduced Sequence
Likelihood Calibration (SLiC), can also be used to effectively learn from human
preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human
feedback data collected for a different model, similar to off-policy, offline
RL data. Automatic and human evaluation experiments on the TL;DR summarization
task show that SLiC-HF significantly improves supervised fine-tuning baselines.
Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF
implementation used in past work while being much simpler to implement, easier
to tune and more computationally efficient in practice.