Decodifica con Ricompensa Aumentata: Generazione Controllata Efficiente di Testo con un Modello di Ricompensa Unidirezionale
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model
October 14, 2023
Autori: Haikang Deng, Colin Raffel
cs.AI
Abstract
Sebbene i grandi modelli linguistici si siano dimostrati efficaci in un'ampia gamma di applicazioni downstream, spesso generano testi problematici o privi di un attributo desiderato. In questo articolo, introduciamo il Decodifica Aumentata da Ricompensa (Reward-Augmented Decoding, RAD), una procedura di generazione di testo che utilizza un piccolo modello di ricompensa unidirezionale per incoraggiare un modello linguistico a generare testi con determinate proprietà. Nello specifico, RAD utilizza il modello di ricompensa per valutare le generazioni man mano che vengono prodotte e ridimensiona le probabilità di campionamento per favorire token ad alta ricompensa. Utilizzando un modello di ricompensa unidirezionale, RAD può memorizzare nella cache le attivazioni dei passi di generazione precedenti per ridurre il sovraccarico computazionale. Attraverso esperimenti sulla generazione di testi non tossici e controllati dal punto di vista del sentimento, dimostriamo che RAD si comporta meglio tra i metodi che modificano solo la procedura di generazione e raggiunge le prestazioni dei metodi all'avanguardia che implicano il riaddestramento del modello linguistico. Validiamo inoltre che RAD è efficace su modelli linguistici molto grandi, con un sovraccarico computazionale minimo.
English
While large language models have proven effective in a huge range of
downstream applications, they often generate text that is problematic or lacks
a desired attribute. In this paper, we introduce Reward-Augmented Decoding
(RAD), a text generation procedure that uses a small unidirectional reward
model to encourage a language model to generate text that has certain
properties. Specifically, RAD uses the reward model to score generations as
they are produced and rescales sampling probabilities to favor high-reward
tokens. By using a unidirectional reward model, RAD can cache activations from
prior generation steps to decrease computational overhead. Through experiments
on generating non-toxic and sentiment-controlled text, we demonstrate that RAD
performs best among methods that change only the generation procedure and
matches the performance of state-of-the-art methods that involve re-training
the language model. We further validate that RAD is effective on very large
language models while incurring a minimal computational overhead.