ChatPaper.aiChatPaper

Décodage contrôlé à partir de modèles de langage

Controlled Decoding from Language Models

October 25, 2023
papers.authors: Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang, Yanping Huang, Zhifeng Chen, Heng-Tze Cheng, Michael Collins, Trevor Strohman, Jilin Chen, Alex Beutel, Ahmad Beirami
cs.AI

papers.abstract

Nous proposons le décodage contrôlé (CD), une nouvelle méthode d'apprentissage par renforcement hors politique pour contrôler la génération autoregressive des modèles de langage vers des résultats à haut rendement. CD résout un problème d'apprentissage par renforcement hors politique à travers une fonction de valeur pour le rendement, que nous appelons un évaluateur de préfixe. L'évaluateur de préfixe est utilisé au moment de l'inférence pour orienter la génération vers des résultats à plus haut rendement. Nous montrons que l'évaluateur de préfixe peut être entraîné sur des données (potentiellement) hors politique pour prédire le rendement attendu lorsque le décodage est poursuivi à partir d'une réponse partiellement décodée. Nous démontrons empiriquement que CD est efficace comme mécanisme de contrôle sur un corpus de conversations Reddit. Nous montrons également que la modularité de la conception de CD permet de contrôler pour plusieurs rendements, résolvant efficacement un problème d'apprentissage par renforcement multi-objectif sans complexité supplémentaire. Enfin, nous montrons que CD peut être appliqué de manière novatrice par blocs au moment de l'inférence, là encore sans nécessiter de modifications au moment de l'entraînement, comblant ainsi l'écart entre la stratégie populaire du meilleur-de-K et l'apprentissage par renforcement au niveau des tokens. Cela fait de CD une approche prometteuse pour l'alignement des modèles de langage.
English
We propose controlled decoding (CD), a novel off-policy reinforcement learning method to control the autoregressive generation from language models towards high reward outcomes. CD solves an off-policy reinforcement learning problem through a value function for the reward, which we call a prefix scorer. The prefix scorer is used at inference time to steer the generation towards higher reward outcomes. We show that the prefix scorer may be trained on (possibly) off-policy data to predict the expected reward when decoding is continued from a partially decoded response. We empirically demonstrate that CD is effective as a control mechanism on Reddit conversations corpus. We also show that the modularity of the design of CD makes it possible to control for multiple rewards, effectively solving a multi-objective reinforcement learning problem with no additional complexity. Finally, we show that CD can be applied in a novel blockwise fashion at inference-time, again without the need for any training-time changes, essentially bridging the gap between the popular best-of-K strategy and token-level reinforcement learning. This makes CD a promising approach for alignment of language models.
PDF152December 15, 2024