ChatPaper.aiChatPaper

SLiC-HF: Calibración de Probabilidad de Secuencias con Retroalimentación Humana

SLiC-HF: Sequence Likelihood Calibration with Human Feedback

May 17, 2023
Autores: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI

Resumen

Aprender a partir de la retroalimentación humana ha demostrado ser efectivo para alinear los modelos de lenguaje con las preferencias humanas. Trabajos anteriores a menudo han dependido del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF, por sus siglas en inglés), el cual optimiza el modelo de lenguaje utilizando puntuaciones de recompensa asignadas por un modelo de recompensa entrenado con datos de preferencias humanas. En este trabajo mostramos cómo la Calibración de Probabilidad de Secuencia (SLiC, por sus siglas en inglés), introducida recientemente, también puede utilizarse para aprender efectivamente a partir de preferencias humanas (SLiC-HF). Además, demostramos que esto puede lograrse con datos de retroalimentación humana recolectados para un modelo diferente, similar a los datos de aprendizaje por refuerzo fuera de política y fuera de línea. Experimentos de evaluación automática y humana en la tarea de resumen TL;DR muestran que SLiC-HF mejora significativamente los baselines de ajuste fino supervisado. Asimismo, SLiC-HF presenta una alternativa competitiva a la implementación de RLHF con PPO utilizada en trabajos anteriores, siendo mucho más sencilla de implementar, más fácil de ajustar y más eficiente computacionalmente en la práctica.
English
Learning from human feedback has been shown to be effective at aligning language models with human preferences. Past work has often relied on Reinforcement Learning from Human Feedback (RLHF), which optimizes the language model using reward scores assigned from a reward model trained on human preference data. In this work we show how the recently introduced Sequence Likelihood Calibration (SLiC), can also be used to effectively learn from human preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human feedback data collected for a different model, similar to off-policy, offline RL data. Automatic and human evaluation experiments on the TL;DR summarization task show that SLiC-HF significantly improves supervised fine-tuning baselines. Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF implementation used in past work while being much simpler to implement, easier to tune and more computationally efficient in practice.
PDF50December 15, 2024