Decodificação Controlada em Modelos de Linguagem

Resumo

Propomos o decodificação controlada (CD, do inglês "controlled decoding"), um novo método de aprendizado por reforço off-policy para controlar a geração autoregressiva de modelos de linguagem em direção a resultados de alta recompensa. O CD resolve um problema de aprendizado por reforço off-policy por meio de uma função de valor para a recompensa, que chamamos de avaliador de prefixo. O avaliador de prefixo é utilizado no momento da inferência para direcionar a geração em direção a resultados de maior recompensa. Mostramos que o avaliador de prefixo pode ser treinado com dados (possivelmente) off-policy para prever a recompensa esperada quando a decodificação é continuada a partir de uma resposta parcialmente decodificada. Demonstramos empiricamente que o CD é eficaz como mecanismo de controle no corpus de conversas do Reddit. Também mostramos que a modularidade do design do CD torna possível controlar múltiplas recompensas, resolvendo efetivamente um problema de aprendizado por reforço multiobjetivo sem complexidade adicional. Por fim, mostramos que o CD pode ser aplicado de forma inovadora em blocos durante a inferência, novamente sem a necessidade de alterações no treinamento, essencialmente preenchendo a lacuna entre a popular estratégia best-of-K e o aprendizado por reforço em nível de token. Isso torna o CD uma abordagem promissora para o alinhamento de modelos de linguagem.

English

We propose controlled decoding (CD), a novel off-policy reinforcement learning method to control the autoregressive generation from language models towards high reward outcomes. CD solves an off-policy reinforcement learning problem through a value function for the reward, which we call a prefix scorer. The prefix scorer is used at inference time to steer the generation towards higher reward outcomes. We show that the prefix scorer may be trained on (possibly) off-policy data to predict the expected reward when decoding is continued from a partially decoded response. We empirically demonstrate that CD is effective as a control mechanism on Reddit conversations corpus. We also show that the modularity of the design of CD makes it possible to control for multiple rewards, effectively solving a multi-objective reinforcement learning problem with no additional complexity. Finally, we show that CD can be applied in a novel blockwise fashion at inference-time, again without the need for any training-time changes, essentially bridging the gap between the popular best-of-K strategy and token-level reinforcement learning. This makes CD a promising approach for alignment of language models.

Decodificação Controlada em Modelos de Linguagem

Controlled Decoding from Language Models

Resumo

Support