SLiC-HF: Calibração de Probabilidade de Sequência com Feedback Humano
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
May 17, 2023
Autores: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI
Resumo
Aprender com o feedback humano tem se mostrado eficaz para alinhar modelos de linguagem com as preferências humanas. Trabalhos anteriores frequentemente dependiam do Aprendizado por Reforço com Feedback Humano (RLHF), que otimiza o modelo de linguagem usando pontuações de recompensa atribuídas por um modelo de recompensa treinado em dados de preferência humana. Neste trabalho, mostramos como a Calibração de Probabilidade de Sequência (SLiC), recentemente introduzida, também pode ser usada para aprender efetivamente com as preferências humanas (SLiC-HF). Além disso, demonstramos que isso pode ser feito com dados de feedback humano coletados para um modelo diferente, semelhante a dados de RL offline e fora da política. Experimentos de avaliação automática e humana na tarefa de resumo TL;DR mostram que o SLiC-HF melhora significativamente as linhas de base de ajuste fino supervisionado. Adicionalmente, o SLiC-HF apresenta uma alternativa competitiva à implementação PPO RLHF usada em trabalhos anteriores, sendo muito mais simples de implementar, mais fácil de ajustar e mais eficiente computacionalmente na prática.
English
Learning from human feedback has been shown to be effective at aligning
language models with human preferences. Past work has often relied on
Reinforcement Learning from Human Feedback (RLHF), which optimizes the language
model using reward scores assigned from a reward model trained on human
preference data. In this work we show how the recently introduced Sequence
Likelihood Calibration (SLiC), can also be used to effectively learn from human
preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human
feedback data collected for a different model, similar to off-policy, offline
RL data. Automatic and human evaluation experiments on the TL;DR summarization
task show that SLiC-HF significantly improves supervised fine-tuning baselines.
Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF
implementation used in past work while being much simpler to implement, easier
to tune and more computationally efficient in practice.