Fein abgestimmtes menschliches Feedback bietet bessere Belohnungen für das Training von Sprachmodellen.
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
June 2, 2023
Autoren: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
cs.AI
Zusammenfassung
Sprachmodelle (LMs) zeigen oft unerwünschte Verhaltensweisen bei der Textgenerierung, darunter das Erzeugen von falschen, toxischen oder irrelevanten Ausgaben. Reinforcement Learning aus menschlichem Feedback (RLHF) – bei dem menschliche Präferenzurteile über LM-Ausgaben in ein Lernsignal umgewandelt werden – hat kürzlich vielversprechende Ergebnisse bei der Lösung dieser Probleme gezeigt. Solches ganzheitliches Feedback vermittelt jedoch nur begrenzte Informationen über lange Textausgaben; es gibt nicht an, welche Aspekte der Ausgaben die Benutzerpräferenz beeinflusst haben, z. B. welche Teile welche Art(en) von Fehlern enthalten. In diesem Artikel verwenden wir detailliertes menschliches Feedback (z. B. welcher Satz falsch ist, welcher Teilsatz irrelevant ist) als explizites Trainingssignal. Wir stellen Fine-Grained RLHF vor, ein Framework, das das Training und Lernen aus Belohnungsfunktionen ermöglicht, die in zweierlei Hinsicht detailliert sind: (1) Dichte, indem nach jedem Segment (z. B. einem Satz) eine Belohnung bereitgestellt wird; und (2) die Einbindung mehrerer Belohnungsmodelle, die mit verschiedenen Feedbacktypen verknüpft sind (z. B. faktische Unrichtigkeit, Irrelevanz und Informationsunvollständigkeit). Wir führen Experimente zur Entgiftung und zur Beantwortung von Langform-Fragen durch, um zu zeigen, wie das Lernen mit solchen Belohnungsfunktionen zu verbesserten Leistungen führt, unterstützt durch sowohl automatische als auch menschliche Bewertungen. Zusätzlich zeigen wir, dass LM-Verhalten durch verschiedene Kombinationen von detaillierten Belohnungsmodellen angepasst werden kann. Wir veröffentlichen alle Daten, gesammeltes menschliches Feedback und Codes unter https://FineGrainedRLHF.github.io.
English
Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.