ChatPaper.aiChatPaper

Gecontroleerd decoderen van taalmodelen

Controlled Decoding from Language Models

October 25, 2023
Auteurs: Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang, Yanping Huang, Zhifeng Chen, Heng-Tze Cheng, Michael Collins, Trevor Strohman, Jilin Chen, Alex Beutel, Ahmad Beirami
cs.AI

Samenvatting

Wij stellen controlled decoding (CD) voor, een nieuwe off-policy reinforcement learning-methode om de autoregressieve generatie van taalmodellen te sturen naar uitkomsten met een hoge beloning. CD lost een off-policy reinforcement learning-probleem op via een waardefunctie voor de beloning, die wij een prefix scorer noemen. De prefix scorer wordt tijdens inferentie gebruikt om de generatie te sturen naar uitkomsten met een hogere beloning. Wij tonen aan dat de prefix scorer getraind kan worden op (mogelijk) off-policy data om de verwachte beloning te voorspellen wanneer het decoderen wordt voortgezet vanuit een gedeeltelijk gedecodeerd antwoord. Empirisch demonstreren wij dat CD effectief is als controlemechanisme op een corpus van Reddit-gesprekken. Wij laten ook zien dat de modulariteit van het ontwerp van CD het mogelijk maakt om te sturen voor meerdere beloningen, waardoor een multi-objectief reinforcement learning-probleem effectief wordt opgelost zonder extra complexiteit. Tot slot tonen wij aan dat CD op een nieuwe blockwise-manier kan worden toegepast tijdens inferentie, opnieuw zonder dat er wijzigingen tijdens de training nodig zijn, waardoor de kloof tussen de populaire best-of-K-strategie en token-level reinforcement learning wordt overbrugd. Dit maakt CD een veelbelovende benadering voor het afstemmen van taalmodellen.
English
We propose controlled decoding (CD), a novel off-policy reinforcement learning method to control the autoregressive generation from language models towards high reward outcomes. CD solves an off-policy reinforcement learning problem through a value function for the reward, which we call a prefix scorer. The prefix scorer is used at inference time to steer the generation towards higher reward outcomes. We show that the prefix scorer may be trained on (possibly) off-policy data to predict the expected reward when decoding is continued from a partially decoded response. We empirically demonstrate that CD is effective as a control mechanism on Reddit conversations corpus. We also show that the modularity of the design of CD makes it possible to control for multiple rewards, effectively solving a multi-objective reinforcement learning problem with no additional complexity. Finally, we show that CD can be applied in a novel blockwise fashion at inference-time, again without the need for any training-time changes, essentially bridging the gap between the popular best-of-K strategy and token-level reinforcement learning. This makes CD a promising approach for alignment of language models.
PDF152February 7, 2026