Beloning-Versterkt Decoderen: Efficiënte Gecontroleerde Tekstgeneratie met een Unidirectioneel Beloningsmodel

Samenvatting

Hoewel grote taalmodelen effectief zijn gebleken in een breed scala aan downstream-toepassingen, genereren ze vaak tekst die problematisch is of een gewenste eigenschap mist. In dit artikel introduceren we Reward-Augmented Decoding (RAD), een tekstgeneratieprocedure die een klein unidirectioneel beloningsmodel gebruikt om een taalmodel aan te moedigen tekst te genereren met bepaalde eigenschappen. Specifiek gebruikt RAD het beloningsmodel om gegenereerde tekst te beoordelen terwijl deze wordt geproduceerd en herschaalt het de steekproefkansen om tokens met een hoge beloning te bevoordelen. Door een unidirectioneel beloningsmodel te gebruiken, kan RAD activeringen van eerdere generatiestappen cachen om de rekenkosten te verlagen. Door experimenten met het genereren van niet-toxische en sentiment-gestuurde tekst tonen we aan dat RAD het beste presteert onder methoden die alleen de generatieprocedure aanpassen en de prestaties evenaart van state-of-the-art methoden die het opnieuw trainen van het taalmodel omvatten. We valideren verder dat RAD effectief is op zeer grote taalmodelen terwijl het slechts een minimale rekenkosten met zich meebrengt.

English

While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.

Beloning-Versterkt Decoderen: Efficiënte Gecontroleerde Tekstgeneratie met een Unidirectioneel Beloningsmodel

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Samenvatting

Support