Feedback Humano Detalhado Proporciona Melhores Recompensas para o Treinamento de Modelos de Linguagem
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
June 2, 2023
Autores: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
cs.AI
Resumo
Modelos de linguagem (MLs) frequentemente exibem comportamentos indesejáveis na geração de textos, incluindo a produção de saídas falsas, tóxicas ou irrelevantes. O aprendizado por reforço com base em feedback humano (RLHF, do inglês *Reinforcement Learning from Human Feedback*) — no qual julgamentos de preferência humana sobre as saídas dos MLs são transformados em um sinal de aprendizado — tem mostrado recentemente potencial para abordar esses problemas. No entanto, esse tipo de feedback holístico transmite informações limitadas sobre saídas de texto longas; ele não indica quais aspectos das saídas influenciaram a preferência do usuário; por exemplo, quais partes contêm quais tipos de erros. Neste artigo, utilizamos feedback humano detalhado (por exemplo, qual frase é falsa, qual subfrase é irrelevante) como um sinal de treinamento explícito. Introduzimos o *Fine-Grained RLHF*, uma estrutura que permite o treinamento e o aprendizado a partir de funções de recompensa que são detalhadas em dois aspectos: (1) densidade, fornecendo uma recompensa após cada segmento (por exemplo, uma frase) ser gerado; e (2) incorporação de múltiplos modelos de recompensa associados a diferentes tipos de feedback (por exemplo, incorreção factual, irrelevância e incompletude de informações). Realizamos experimentos em detoxificação e respostas a perguntas de longa extensão para ilustrar como o aprendizado com tais funções de recompensa leva a um desempenho aprimorado, apoiado tanto por avaliações automáticas quanto humanas. Além disso, mostramos que os comportamentos dos MLs podem ser personalizados usando diferentes combinações de modelos de recompensa detalhados. Disponibilizamos todos os dados, feedback humano coletado e códigos em https://FineGrainedRLHF.github.io.
English
Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.