SLiC-HF: Calibración de Probabilidad de Secuencias con Retroalimentación Humana
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
May 17, 2023
Autores: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI
Resumen
Aprender a partir de la retroalimentación humana ha demostrado ser efectivo para alinear los modelos de lenguaje con las preferencias humanas. Trabajos anteriores a menudo han dependido del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF, por sus siglas en inglés), el cual optimiza el modelo de lenguaje utilizando puntuaciones de recompensa asignadas por un modelo de recompensa entrenado con datos de preferencias humanas. En este trabajo mostramos cómo la Calibración de Probabilidad de Secuencia (SLiC, por sus siglas en inglés), introducida recientemente, también puede utilizarse para aprender efectivamente a partir de preferencias humanas (SLiC-HF). Además, demostramos que esto puede lograrse con datos de retroalimentación humana recolectados para un modelo diferente, similar a los datos de aprendizaje por refuerzo fuera de política y fuera de línea. Experimentos de evaluación automática y humana en la tarea de resumen TL;DR muestran que SLiC-HF mejora significativamente los baselines de ajuste fino supervisado. Asimismo, SLiC-HF presenta una alternativa competitiva a la implementación de RLHF con PPO utilizada en trabajos anteriores, siendo mucho más sencilla de implementar, más fácil de ajustar y más eficiente computacionalmente en la práctica.
English
Learning from human feedback has been shown to be effective at aligning
language models with human preferences. Past work has often relied on
Reinforcement Learning from Human Feedback (RLHF), which optimizes the language
model using reward scores assigned from a reward model trained on human
preference data. In this work we show how the recently introduced Sequence
Likelihood Calibration (SLiC), can also be used to effectively learn from human
preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human
feedback data collected for a different model, similar to off-policy, offline
RL data. Automatic and human evaluation experiments on the TL;DR summarization
task show that SLiC-HF significantly improves supervised fine-tuning baselines.
Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF
implementation used in past work while being much simpler to implement, easier
to tune and more computationally efficient in practice.