Fijnmazige menselijke feedback biedt betere beloningen voor taalmodeltraining.
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
June 2, 2023
Auteurs: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
cs.AI
Samenvatting
Taalmodelen (LMs) vertonen vaak ongewenste tekstgeneratiegedragingen, zoals het produceren van onjuiste, giftige of irrelevante uitvoer. Reinforcement learning met menselijke feedback (RLHF) – waarbij menselijke voorkeuroordelen over LM-uitvoer worden omgezet in een leersignaal – heeft recentelijk belofte getoond in het aanpakken van deze problemen. Echter, dergelijke holistische feedback geeft beperkte informatie over lange tekstuitvoer; het geeft niet aan welke aspecten van de uitvoer de gebruikersvoorkeur beïnvloeden; bijvoorbeeld welke delen welk type fouten bevatten. In dit artikel gebruiken we gedetailleerde menselijke feedback (bijvoorbeeld welke zin onjuist is, welke subzin irrelevant is) als een expliciet trainingssignaal. We introduceren Fine-Grained RLHF, een raamwerk dat training en leren mogelijk maakt van beloningsfuncties die op twee manieren gedetailleerd zijn: (1) dichtheid, waarbij na elk segment (bijvoorbeeld een zin) een beloning wordt gegeven; en (2) het integreren van meerdere beloningsmodellen die zijn gekoppeld aan verschillende feedbacktypen (bijvoorbeeld feitelijke onjuistheid, irrelevantie en informatieonvolledigheid). We voeren experimenten uit op het gebied van detoxificatie en langdurige vraagbeantwoording om te illustreren hoe leren met dergelijke beloningsfuncties leidt tot verbeterde prestaties, ondersteund door zowel automatische als menselijke evaluatie. Daarnaast tonen we aan dat LM-gedrag kan worden aangepast met behulp van verschillende combinaties van gedetailleerde beloningsmodellen. We maken alle data, verzamelde menselijke feedback en codes beschikbaar op https://FineGrainedRLHF.github.io.
English
Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.