ChatPaper.aiChatPaper

Gesteuerte Dekodierung von Sprachmodellen

Controlled Decoding from Language Models

October 25, 2023
Autoren: Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang, Yanping Huang, Zhifeng Chen, Heng-Tze Cheng, Michael Collins, Trevor Strohman, Jilin Chen, Alex Beutel, Ahmad Beirami
cs.AI

Zusammenfassung

Wir schlagen Controlled Decoding (CD) vor, eine neuartige Off-Policy-Verstärkungslernmethode, um die autoregressive Generierung von Sprachmodellen hin zu Ergebnissen mit hoher Belohnung zu steuern. CD löst ein Off-Policy-Verstärkungslernproblem durch eine Wertfunktion für die Belohnung, die wir als Präfix-Scorer bezeichnen. Der Präfix-Scorer wird zur Inferenzzeit verwendet, um die Generierung in Richtung höherer Belohnungsergebnisse zu lenken. Wir zeigen, dass der Präfix-Scorer anhand von (möglicherweise) Off-Policy-Daten trainiert werden kann, um die erwartete Belohnung vorherzusagen, wenn die Dekodierung von einer teilweise dekodierten Antwort fortgesetzt wird. Wir demonstrieren empirisch, dass CD als Kontrollmechanismus auf dem Reddit-Konversationskorpus effektiv ist. Wir zeigen auch, dass die Modularität des CD-Designs es ermöglicht, mehrere Belohnungen zu kontrollieren, wodurch ein multiobjektives Verstärkungslernproblem ohne zusätzliche Komplexität effektiv gelöst wird. Schließlich zeigen wir, dass CD auf neuartige Weise blockweise zur Inferenzzeit angewendet werden kann, wiederum ohne dass Änderungen während des Trainings erforderlich sind, wodurch im Wesentlichen die Lücke zwischen der beliebten Best-of-K-Strategie und dem Token-Level-Verstärkungslernen überbrückt wird. Dies macht CD zu einem vielversprechenden Ansatz für die Ausrichtung von Sprachmodellen.
English
We propose controlled decoding (CD), a novel off-policy reinforcement learning method to control the autoregressive generation from language models towards high reward outcomes. CD solves an off-policy reinforcement learning problem through a value function for the reward, which we call a prefix scorer. The prefix scorer is used at inference time to steer the generation towards higher reward outcomes. We show that the prefix scorer may be trained on (possibly) off-policy data to predict the expected reward when decoding is continued from a partially decoded response. We empirically demonstrate that CD is effective as a control mechanism on Reddit conversations corpus. We also show that the modularity of the design of CD makes it possible to control for multiple rewards, effectively solving a multi-objective reinforcement learning problem with no additional complexity. Finally, we show that CD can be applied in a novel blockwise fashion at inference-time, again without the need for any training-time changes, essentially bridging the gap between the popular best-of-K strategy and token-level reinforcement learning. This makes CD a promising approach for alignment of language models.
PDF152December 15, 2024