ChatPaper.aiChatPaper

Декодирование с усилением вознаграждения: эффективное управляемое генерация текста с использованием однонаправленной модели вознаграждения

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

October 14, 2023
Авторы: Haikang Deng, Colin Raffel
cs.AI

Аннотация

Хотя крупные языковые модели доказали свою эффективность в широком спектре прикладных задач, они часто генерируют текст, который является проблематичным или не обладает желаемыми характеристиками. В данной статье мы представляем метод генерации текста с использованием награды (Reward-Augmented Decoding, RAD), который использует небольшую однонаправленную модель награды для стимулирования языковой модели к генерации текста с определёнными свойствами. В частности, RAD использует модель награды для оценки генерируемого текста по мере его создания и пересчитывает вероятности выборки, чтобы предпочитать токены с высокой наградой. Благодаря использованию однонаправленной модели награды, RAD может кэшировать активации из предыдущих шагов генерации, что снижает вычислительные затраты. В экспериментах по генерации нетоксичного текста и текста с контролируемой эмоциональной окраской мы демонстрируем, что RAD превосходит другие методы, которые изменяют только процедуру генерации, и соответствует производительности современных методов, включающих переобучение языковой модели. Мы также подтверждаем, что RAD эффективен для очень крупных языковых моделей при минимальных вычислительных затратах.
English
While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.
PDF121December 15, 2024