Декодирование с усилением вознаграждения: эффективное управляемое генерация текста с использованием однонаправленной модели вознаграждения
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model
October 14, 2023
Авторы: Haikang Deng, Colin Raffel
cs.AI
Аннотация
Хотя крупные языковые модели доказали свою эффективность в широком спектре прикладных задач, они часто генерируют текст, который является проблематичным или не обладает желаемыми характеристиками. В данной статье мы представляем метод генерации текста с использованием награды (Reward-Augmented Decoding, RAD), который использует небольшую однонаправленную модель награды для стимулирования языковой модели к генерации текста с определёнными свойствами. В частности, RAD использует модель награды для оценки генерируемого текста по мере его создания и пересчитывает вероятности выборки, чтобы предпочитать токены с высокой наградой. Благодаря использованию однонаправленной модели награды, RAD может кэшировать активации из предыдущих шагов генерации, что снижает вычислительные затраты. В экспериментах по генерации нетоксичного текста и текста с контролируемой эмоциональной окраской мы демонстрируем, что RAD превосходит другие методы, которые изменяют только процедуру генерации, и соответствует производительности современных методов, включающих переобучение языковой модели. Мы также подтверждаем, что RAD эффективен для очень крупных языковых моделей при минимальных вычислительных затратах.
English
While large language models have proven effective in a huge range of
downstream applications, they often generate text that is problematic or lacks
a desired attribute. In this paper, we introduce Reward-Augmented Decoding
(RAD), a text generation procedure that uses a small unidirectional reward
model to encourage a language model to generate text that has certain
properties. Specifically, RAD uses the reward model to score generations as
they are produced and rescales sampling probabilities to favor high-reward
tokens. By using a unidirectional reward model, RAD can cache activations from
prior generation steps to decrease computational overhead. Through experiments
on generating non-toxic and sentiment-controlled text, we demonstrate that RAD
performs best among methods that change only the generation procedure and
matches the performance of state-of-the-art methods that involve re-training
the language model. We further validate that RAD is effective on very large
language models while incurring a minimal computational overhead.