Feedback Humano Detalhado Proporciona Melhores Recompensas para o Treinamento de Modelos de Linguagem

Resumo

Modelos de linguagem (MLs) frequentemente exibem comportamentos indesejáveis na geração de textos, incluindo a produção de saídas falsas, tóxicas ou irrelevantes. O aprendizado por reforço com base em feedback humano (RLHF, do inglês *Reinforcement Learning from Human Feedback*) — no qual julgamentos de preferência humana sobre as saídas dos MLs são transformados em um sinal de aprendizado — tem mostrado recentemente potencial para abordar esses problemas. No entanto, esse tipo de feedback holístico transmite informações limitadas sobre saídas de texto longas; ele não indica quais aspectos das saídas influenciaram a preferência do usuário; por exemplo, quais partes contêm quais tipos de erros. Neste artigo, utilizamos feedback humano detalhado (por exemplo, qual frase é falsa, qual subfrase é irrelevante) como um sinal de treinamento explícito. Introduzimos o *Fine-Grained RLHF*, uma estrutura que permite o treinamento e o aprendizado a partir de funções de recompensa que são detalhadas em dois aspectos: (1) densidade, fornecendo uma recompensa após cada segmento (por exemplo, uma frase) ser gerado; e (2) incorporação de múltiplos modelos de recompensa associados a diferentes tipos de feedback (por exemplo, incorreção factual, irrelevância e incompletude de informações). Realizamos experimentos em detoxificação e respostas a perguntas de longa extensão para ilustrar como o aprendizado com tais funções de recompensa leva a um desempenho aprimorado, apoiado tanto por avaliações automáticas quanto humanas. Além disso, mostramos que os comportamentos dos MLs podem ser personalizados usando diferentes combinações de modelos de recompensa detalhados. Disponibilizamos todos os dados, feedback humano coletado e códigos em https://FineGrainedRLHF.github.io.

English

Language models (LMs) often exhibit undesirable text generation behaviors, including generating false, toxic, or irrelevant outputs. Reinforcement learning from human feedback (RLHF) - where human preference judgments on LM outputs are transformed into a learning signal - has recently shown promise in addressing these issues. However, such holistic feedback conveys limited information on long text outputs; it does not indicate which aspects of the outputs influenced user preference; e.g., which parts contain what type(s) of errors. In this paper, we use fine-grained human feedback (e.g., which sentence is false, which sub-sentence is irrelevant) as an explicit training signal. We introduce Fine-Grained RLHF, a framework that enables training and learning from reward functions that are fine-grained in two respects: (1) density, providing a reward after every segment (e.g., a sentence) is generated; and (2) incorporating multiple reward models associated with different feedback types (e.g., factual incorrectness, irrelevance, and information incompleteness). We conduct experiments on detoxification and long-form question answering to illustrate how learning with such reward functions leads to improved performance, supported by both automatic and human evaluation. Additionally, we show that LM behaviors can be customized using different combinations of fine-grained reward models. We release all data, collected human feedback, and codes at https://FineGrainedRLHF.github.io.

Feedback Humano Detalhado Proporciona Melhores Recompensas para o Treinamento de Modelos de Linguagem

Fine-Grained Human Feedback Gives Better Rewards for Language Model Training

Resumo

Support