SLiC-HF : Calibration de la vraisemblance des séquences avec retour humain
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
May 17, 2023
Auteurs: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI
Résumé
L'apprentissage à partir de retours humains s'est avéré efficace pour aligner les modèles de langage avec les préférences humaines. Les travaux précédents ont souvent reposé sur l'Apprentissage par Renforcement à partir de Retours Humains (RLHF), qui optimise le modèle de langage en utilisant des scores de récompense attribués par un modèle de récompense entraîné sur des données de préférences humaines. Dans ce travail, nous montrons comment la Calibration de la Vraisemblance de Séquence (SLiC), récemment introduite, peut également être utilisée pour apprendre efficacement à partir des préférences humaines (SLiC-HF). De plus, nous démontrons que cela peut être réalisé avec des données de retours humains collectées pour un modèle différent, de manière similaire aux données d'apprentissage par renforcement hors politique et hors ligne. Les expériences d'évaluation automatique et humaine sur la tâche de résumé TL;DR montrent que SLiC-HF améliore significativement les bases de réglage fin supervisé. Par ailleurs, SLiC-HF présente une alternative compétitive à l'implémentation PPO RLHF utilisée dans les travaux précédents, tout en étant beaucoup plus simple à mettre en œuvre, plus facile à régler et plus efficace sur le plan computationnel en pratique.
English
Learning from human feedback has been shown to be effective at aligning
language models with human preferences. Past work has often relied on
Reinforcement Learning from Human Feedback (RLHF), which optimizes the language
model using reward scores assigned from a reward model trained on human
preference data. In this work we show how the recently introduced Sequence
Likelihood Calibration (SLiC), can also be used to effectively learn from human
preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human
feedback data collected for a different model, similar to off-policy, offline
RL data. Automatic and human evaluation experiments on the TL;DR summarization
task show that SLiC-HF significantly improves supervised fine-tuning baselines.
Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF
implementation used in past work while being much simpler to implement, easier
to tune and more computationally efficient in practice.