Le feedback humain granulaire offre de meilleures récompenses pour l'entraînement des modèles de langage
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
June 2, 2023
Auteurs: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
cs.AI
Résumé
Les modèles de langage (LMs) présentent souvent des comportements indésirables dans la génération de texte, incluant la production de sorties fausses, toxiques ou non pertinentes. L'apprentissage par renforcement à partir de retours humains (RLHF) - où les jugements de préférence humaine sur les sorties des LMs sont transformés en signal d'apprentissage - a récemment montré des résultats prometteurs pour résoudre ces problèmes. Cependant, ces retours globaux transmettent des informations limitées sur les sorties de texte long ; ils n'indiquent pas quels aspects des sorties ont influencé la préférence de l'utilisateur ; par exemple, quelles parties contiennent quel(s) type(s) d'erreurs. Dans cet article, nous utilisons des retours humains granulaires (par exemple, quelle phrase est fausse, quelle sous-phrase est non pertinente) comme signal d'entraînement explicite. Nous introduisons Fine-Grained RLHF, un cadre qui permet l'entraînement et l'apprentissage à partir de fonctions de récompense granulaires à deux égards : (1) la densité, fournissant une récompense après chaque segment (par exemple, une phrase) généré ; et (2) l'intégration de multiples modèles de récompense associés à différents types de retours (par exemple, l'inexactitude factuelle, la non-pertinence, et l'incomplétude de l'information). Nous menons des expériences sur la détoxification et la réponse à des questions longues pour illustrer comment l'apprentissage avec de telles fonctions de récompense conduit à une amélioration des performances, soutenue par des évaluations automatiques et humaines. De plus, nous montrons que les comportements des LMs peuvent être personnalisés en utilisant différentes combinaisons de modèles de récompense granulaires. Nous publions toutes les données, les retours humains collectés, et les codes sur https://FineGrainedRLHF.github.io.
English
Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.