Decodifica con Ricompensa Aumentata: Generazione Controllata Efficiente di Testo con un Modello di Ricompensa Unidirezionale

Abstract

Sebbene i grandi modelli linguistici si siano dimostrati efficaci in un'ampia gamma di applicazioni downstream, spesso generano testi problematici o privi di un attributo desiderato. In questo articolo, introduciamo il Decodifica Aumentata da Ricompensa (Reward-Augmented Decoding, RAD), una procedura di generazione di testo che utilizza un piccolo modello di ricompensa unidirezionale per incoraggiare un modello linguistico a generare testi con determinate proprietà. Nello specifico, RAD utilizza il modello di ricompensa per valutare le generazioni man mano che vengono prodotte e ridimensiona le probabilità di campionamento per favorire token ad alta ricompensa. Utilizzando un modello di ricompensa unidirezionale, RAD può memorizzare nella cache le attivazioni dei passi di generazione precedenti per ridurre il sovraccarico computazionale. Attraverso esperimenti sulla generazione di testi non tossici e controllati dal punto di vista del sentimento, dimostriamo che RAD si comporta meglio tra i metodi che modificano solo la procedura di generazione e raggiunge le prestazioni dei metodi all'avanguardia che implicano il riaddestramento del modello linguistico. Validiamo inoltre che RAD è efficace su modelli linguistici molto grandi, con un sovraccarico computazionale minimo.

English

While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.

Decodifica con Ricompensa Aumentata: Generazione Controllata Efficiente di Testo con un Modello di Ricompensa Unidirezionale

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Abstract

Support