Decodificação com Recompensa Aumentada: Geração Controlada de Texto Eficiente com um Modelo de Recompensa Unidirecional

Resumo

Embora os grandes modelos de linguagem tenham se mostrado eficazes em uma ampla gama de aplicações subsequentes, eles frequentemente geram textos problemáticos ou que carecem de atributos desejados. Neste artigo, introduzimos o Decodificação Aumentada por Recompensa (Reward-Augmented Decoding - RAD), um procedimento de geração de texto que utiliza um pequeno modelo de recompensa unidirecional para incentivar um modelo de linguagem a gerar textos com certas propriedades. Especificamente, o RAD utiliza o modelo de recompensa para pontuar as gerações à medida que são produzidas e redimensiona as probabilidades de amostragem para favorecer tokens de alta recompensa. Ao usar um modelo de recompensa unidirecional, o RAD pode armazenar em cache as ativações de etapas anteriores de geração para reduzir a sobrecarga computacional. Por meio de experimentos na geração de textos não tóxicos e com controle de sentimento, demonstramos que o RAD apresenta o melhor desempenho entre os métodos que alteram apenas o procedimento de geração e iguala o desempenho dos métodos state-of-the-art que envolvem o retreinamento do modelo de linguagem. Além disso, validamos que o RAD é eficaz em modelos de linguagem muito grandes, incorrendo em uma sobrecarga computacional mínima.

English

While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.

Decodificação com Recompensa Aumentada: Geração Controlada de Texto Eficiente com um Modelo de Recompensa Unidirecional

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Resumo

Support