ChatPaper.aiChatPaper

SLiC-HF: Калибровка последовательностей по правдоподобию с учетом обратной связи от человека

SLiC-HF: Sequence Likelihood Calibration with Human Feedback

May 17, 2023
Авторы: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI

Аннотация

Обучение на основе обратной связи от человека доказало свою эффективность в согласовании языковых моделей с человеческими предпочтениями. В предыдущих работах часто использовалось обучение с подкреплением на основе человеческой обратной связи (RLHF), которое оптимизирует языковую модель с использованием оценок вознаграждения, присвоенных моделью вознаграждения, обученной на данных о человеческих предпочтениях. В данной работе мы показываем, как недавно предложенный метод калибровки правдоподобия последовательностей (SLiC) также может быть эффективно использован для обучения на основе человеческих предпочтений (SLiC-HF). Более того, мы демонстрируем, что это можно сделать с использованием данных обратной связи, собранных для другой модели, аналогично данным обучения с подкреплением вне политики (off-policy) и оффлайн (offline). Эксперименты с автоматической и человеческой оценкой на задаче суммаризации TL;DR показывают, что SLiC-HF значительно улучшает базовые методы тонкой настройки с учителем. Кроме того, SLiC-HF представляет собой конкурентоспособную альтернативу реализации RLHF на основе алгоритма PPO, использованной в предыдущих работах, при этом будучи гораздо проще в реализации, легче в настройке и более вычислительно эффективной на практике.
English
Learning from human feedback has been shown to be effective at aligning language models with human preferences. Past work has often relied on Reinforcement Learning from Human Feedback (RLHF), which optimizes the language model using reward scores assigned from a reward model trained on human preference data. In this work we show how the recently introduced Sequence Likelihood Calibration (SLiC), can also be used to effectively learn from human preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human feedback data collected for a different model, similar to off-policy, offline RL data. Automatic and human evaluation experiments on the TL;DR summarization task show that SLiC-HF significantly improves supervised fine-tuning baselines. Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF implementation used in past work while being much simpler to implement, easier to tune and more computationally efficient in practice.
PDF50December 15, 2024