Decodificación Aumentada por Recompensas: Generación Controlada de Texto Eficiente con un Modelo de Recompensa Unidireccional

Resumen

Si bien los modelos de lenguaje de gran escala han demostrado ser efectivos en una amplia gama de aplicaciones posteriores, a menudo generan texto que es problemático o carece de un atributo deseado. En este artículo, presentamos la Decodificación Aumentada por Recompensas (Reward-Augmented Decoding, RAD), un procedimiento de generación de texto que utiliza un pequeño modelo de recompensa unidireccional para incentivar a un modelo de lenguaje a generar texto con ciertas propiedades. Específicamente, RAD utiliza el modelo de recompensa para puntuar las generaciones a medida que se producen y reescala las probabilidades de muestreo para favorecer tokens con alta recompensa. Al emplear un modelo de recompensa unidireccional, RAD puede almacenar en caché las activaciones de pasos previos de generación para reducir la sobrecarga computacional. A través de experimentos sobre la generación de texto no tóxico y controlado por sentimiento, demostramos que RAD supera a los métodos que solo modifican el procedimiento de generación y se equipara al rendimiento de los métodos más avanzados que implican reentrenar el modelo de lenguaje. Además, validamos que RAD es efectivo en modelos de lenguaje muy grandes mientras incurre en una sobrecarga computacional mínima.

English

While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.

Decodificación Aumentada por Recompensas: Generación Controlada de Texto Eficiente con un Modelo de Recompensa Unidireccional

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Resumen

Support