La retroalimentación humana detallada proporciona mejores recompensas para el entrenamiento de modelos de lenguaje
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
June 2, 2023
Autores: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
cs.AI
Resumen
Los modelos de lenguaje (LM, por sus siglas en inglés) suelen exhibir comportamientos indeseables en la generación de texto, como producir salidas falsas, tóxicas o irrelevantes. El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés), donde los juicios de preferencia humana sobre las salidas de los LM se transforman en una señal de aprendizaje, ha mostrado recientemente ser prometedor para abordar estos problemas. Sin embargo, esta retroalimentación holística transmite información limitada sobre salidas de texto extensas; no indica qué aspectos de las salidas influyeron en la preferencia del usuario; por ejemplo, qué partes contienen qué tipo(s) de errores. En este artículo, utilizamos retroalimentación humana detallada (por ejemplo, qué oración es falsa, qué suboración es irrelevante) como una señal de entrenamiento explícita. Introducimos Fine-Grained RLHF, un marco que permite entrenar y aprender a partir de funciones de recompensa que son detalladas en dos aspectos: (1) densidad, proporcionando una recompensa después de generar cada segmento (por ejemplo, una oración); y (2) incorporación de múltiples modelos de recompensa asociados con diferentes tipos de retroalimentación (por ejemplo, incorrección fáctica, irrelevancia e incompletitud de la información). Realizamos experimentos en desintoxicación y respuestas a preguntas de formato extenso para ilustrar cómo el aprendizaje con estas funciones de recompensa conduce a un mejor rendimiento, respaldado tanto por evaluaciones automáticas como humanas. Además, demostramos que los comportamientos de los LM pueden personalizarse utilizando diferentes combinaciones de modelos de recompensa detallados. Publicamos todos los datos, la retroalimentación humana recopilada y los códigos en https://FineGrainedRLHF.github.io.
English
Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.