Belohnungsverstärkte Dekodierung: Effiziente kontrollierte Textgenerierung mit einem unidirektionalen Belohnungsmodell

papers.abstract

Während große Sprachmodelle in einer Vielzahl von Downstream-Anwendungen effektiv sind, erzeugen sie oft Text, der problematisch ist oder eine gewünschte Eigenschaft vermissen lässt. In diesem Artikel stellen wir Reward-Augmented Decoding (RAD) vor, ein Textgenerierungsverfahren, das ein kleines unidirektionales Belohnungsmodell verwendet, um ein Sprachmodell dazu zu animieren, Text mit bestimmten Eigenschaften zu erzeugen. Konkret nutzt RAD das Belohnungsmodell, um Generierungen während ihrer Erstellung zu bewerten und passt die Sampling-Wahrscheinlichkeiten an, um Token mit hoher Belohnung zu bevorzugen. Durch die Verwendung eines unidirektionalen Belohnungsmodells kann RAD Aktivierungen aus vorherigen Generierungsschritten zwischenspeichern, um den Rechenaufwand zu verringern. Durch Experimente zur Erzeugung von nicht-toxischem und sentimentgesteuertem Text zeigen wir, dass RAD unter den Methoden, die nur das Generierungsverfahren ändern, am besten abschneidet und mit der Leistung modernster Methoden, die eine Neuanpassung des Sprachmodells erfordern, mithalten kann. Wir validieren weiterhin, dass RAD bei sehr großen Sprachmodellen effektiv ist, während es nur einen minimalen Rechenaufwand verursacht.

English

While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.

Belohnungsverstärkte Dekodierung: Effiziente kontrollierte Textgenerierung mit einem unidirektionalen Belohnungsmodell

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

papers.abstract

Support