Il Feedback Umano Dettagliato Offre Migliori Ricompense per l'Addestramento dei Modelli Linguistici
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
June 2, 2023
Autori: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
cs.AI
Abstract
I modelli linguistici (LM) spesso manifestano comportamenti indesiderati nella generazione di testi, inclusa la produzione di output falsi, tossici o irrilevanti. Il reinforcement learning da feedback umano (RLHF) – in cui i giudizi di preferenza umana sugli output dei LM vengono trasformati in un segnale di apprendimento – ha recentemente dimostrato di essere promettente nel risolvere questi problemi. Tuttavia, tale feedback olistico fornisce informazioni limitate sugli output di testo lunghi; non indica quali aspetti degli output hanno influenzato la preferenza dell’utente; ad esempio, quali parti contengono quale tipo di errori. In questo articolo, utilizziamo feedback umano granulare (ad esempio, quale frase è falsa, quale sotto-frase è irrilevante) come segnale di addestramento esplicito. Introduciamo Fine-Grained RLHF, un framework che consente l’addestramento e l’apprendimento da funzioni di ricompensa che sono granulari in due aspetti: (1) densità, fornendo una ricompensa dopo ogni segmento generato (ad esempio, una frase); e (2) incorporando modelli di ricompensa multipli associati a diversi tipi di feedback (ad esempio, inesattezza fattuale, irrilevanza e incompletezza informativa). Condividiamo esperimenti su detossificazione e risposte a domande di lunga forma per illustrare come l’apprendimento con tali funzioni di ricompensa porti a prestazioni migliorate, supportate sia da valutazioni automatiche che umane. Inoltre, mostriamo che i comportamenti dei LM possono essere personalizzati utilizzando diverse combinazioni di modelli di ricompensa granulari. Rilasciamo tutti i dati, i feedback umani raccolti e i codici su https://FineGrainedRLHF.github.io.
English
Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.