Il Feedback Umano Dettagliato Offre Migliori Ricompense per l'Addestramento dei Modelli Linguistici

Abstract

I modelli linguistici (LM) spesso manifestano comportamenti indesiderati nella generazione di testi, inclusa la produzione di output falsi, tossici o irrilevanti. Il reinforcement learning da feedback umano (RLHF) – in cui i giudizi di preferenza umana sugli output dei LM vengono trasformati in un segnale di apprendimento – ha recentemente dimostrato di essere promettente nel risolvere questi problemi. Tuttavia, tale feedback olistico fornisce informazioni limitate sugli output di testo lunghi; non indica quali aspetti degli output hanno influenzato la preferenza dell’utente; ad esempio, quali parti contengono quale tipo di errori. In questo articolo, utilizziamo feedback umano granulare (ad esempio, quale frase è falsa, quale sotto-frase è irrilevante) come segnale di addestramento esplicito. Introduciamo Fine-Grained RLHF, un framework che consente l’addestramento e l’apprendimento da funzioni di ricompensa che sono granulari in due aspetti: (1) densità, fornendo una ricompensa dopo ogni segmento generato (ad esempio, una frase); e (2) incorporando modelli di ricompensa multipli associati a diversi tipi di feedback (ad esempio, inesattezza fattuale, irrilevanza e incompletezza informativa). Condividiamo esperimenti su detossificazione e risposte a domande di lunga forma per illustrare come l’apprendimento con tali funzioni di ricompensa porti a prestazioni migliorate, supportate sia da valutazioni automatiche che umane. Inoltre, mostriamo che i comportamenti dei LM possono essere personalizzati utilizzando diverse combinazioni di modelli di ricompensa granulari. Rilasciamo tutti i dati, i feedback umani raccolti e i codici su https://FineGrainedRLHF.github.io.

English

Language models (LMs) often exhibit undesirable text generation behaviors, including generating false, toxic, or irrelevant outputs. Reinforcement learning from human feedback (RLHF) - where human preference judgments on LM outputs are transformed into a learning signal - has recently shown promise in addressing these issues. However, such holistic feedback conveys limited information on long text outputs; it does not indicate which aspects of the outputs influenced user preference; e.g., which parts contain what type(s) of errors. In this paper, we use fine-grained human feedback (e.g., which sentence is false, which sub-sentence is irrelevant) as an explicit training signal. We introduce Fine-Grained RLHF, a framework that enables training and learning from reward functions that are fine-grained in two respects: (1) density, providing a reward after every segment (e.g., a sentence) is generated; and (2) incorporating multiple reward models associated with different feedback types (e.g., factual incorrectness, irrelevance, and information incompleteness). We conduct experiments on detoxification and long-form question answering to illustrate how learning with such reward functions leads to improved performance, supported by both automatic and human evaluation. Additionally, we show that LM behaviors can be customized using different combinations of fine-grained reward models. We release all data, collected human feedback, and codes at https://FineGrainedRLHF.github.io.

Il Feedback Umano Dettagliato Offre Migliori Ricompense per l'Addestramento dei Modelli Linguistici

Fine-Grained Human Feedback Gives Better Rewards for Language Model Training

Abstract

Support