Тонко настроенная обратная связь от человека обеспечивает более качественные вознаграждения для обучения языковых моделей
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
June 2, 2023
Авторы: Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi
cs.AI
Аннотация
Языковые модели (ЯМ) часто демонстрируют нежелательное поведение при генерации текста, включая создание ложных, токсичных или нерелевантных результатов. Обучение с подкреплением на основе обратной связи от человека (RLHF) — где суждения о предпочтениях человека относительно выходных данных ЯМ преобразуются в обучающий сигнал — недавно показало свою эффективность в решении этих проблем. Однако такая общая обратная связь предоставляет ограниченную информацию для длинных текстовых выводов; она не указывает, какие аспекты выходных данных повлияли на предпочтения пользователя; например, какие части содержат ошибки и какого типа. В данной работе мы используем детализированную обратную связь от человека (например, какое предложение является ложным, какая часть предложения нерелевантна) в качестве явного обучающего сигнала. Мы представляем Fine-Grained RLHF — фреймворк, который позволяет обучать и извлекать знания из функций вознаграждения, детализированных в двух аспектах: (1) плотность, предоставляя вознаграждение после генерации каждого сегмента (например, предложения); и (2) включение множества моделей вознаграждения, связанных с различными типами обратной связи (например, фактическая некорректность, нерелевантность и неполнота информации). Мы проводим эксперименты по детоксификации и ответам на вопросы в длинных текстах, чтобы продемонстрировать, как обучение с такими функциями вознаграждения приводит к улучшению производительности, что подтверждается как автоматической, так и человеческой оценкой. Кроме того, мы показываем, что поведение ЯМ можно настраивать, используя различные комбинации детализированных моделей вознаграждения. Мы публикуем все данные, собранную обратную связь от человека и код на сайте https://FineGrainedRLHF.github.io.
English
Language models (LMs) often exhibit undesirable text generation behaviors,
including generating false, toxic, or irrelevant outputs. Reinforcement
learning from human feedback (RLHF) - where human preference judgments on LM
outputs are transformed into a learning signal - has recently shown promise in
addressing these issues. However, such holistic feedback conveys limited
information on long text outputs; it does not indicate which aspects of the
outputs influenced user preference; e.g., which parts contain what type(s) of
errors. In this paper, we use fine-grained human feedback (e.g., which sentence
is false, which sub-sentence is irrelevant) as an explicit training signal. We
introduce Fine-Grained RLHF, a framework that enables training and learning
from reward functions that are fine-grained in two respects: (1) density,
providing a reward after every segment (e.g., a sentence) is generated; and (2)
incorporating multiple reward models associated with different feedback types
(e.g., factual incorrectness, irrelevance, and information incompleteness). We
conduct experiments on detoxification and long-form question answering to
illustrate how learning with such reward functions leads to improved
performance, supported by both automatic and human evaluation. Additionally, we
show that LM behaviors can be customized using different combinations of
fine-grained reward models. We release all data, collected human feedback, and
codes at https://FineGrainedRLHF.github.io.