Контролируемое декодирование языковых моделей

Аннотация

Мы предлагаем управляемое декодирование (Controlled Decoding, CD) — новый метод обучения с подкреплением вне политики, предназначенный для управления авторегрессионной генерацией языковых моделей в направлении достижения высоких значений награды. CD решает задачу обучения с подкреплением вне политики с помощью функции ценности для награды, которую мы называем оценщиком префиксов. Оценщик префиксов используется на этапе вывода для направления генерации к результатам с более высокой наградой. Мы показываем, что оценщик префиксов может быть обучен на (возможно) данных вне политики для предсказания ожидаемой награды при продолжении декодирования из частично декодированного ответа. Эмпирически мы демонстрируем, что CD эффективен как механизм управления на корпусе диалогов Reddit. Мы также показываем, что модульность конструкции CD позволяет управлять несколькими наградами, эффективно решая задачу многокритериального обучения с подкреплением без дополнительной сложности. Наконец, мы показываем, что CD может быть применен в новом блочном режиме на этапе вывода, снова без необходимости изменений на этапе обучения, что фактически устраняет разрыв между популярной стратегией best-of-K и обучением с подкреплением на уровне токенов. Это делает CD перспективным подходом для согласования языковых моделей.

English

We propose controlled decoding (CD), a novel off-policy reinforcement learning method to control the autoregressive generation from language models towards high reward outcomes. CD solves an off-policy reinforcement learning problem through a value function for the reward, which we call a prefix scorer. The prefix scorer is used at inference time to steer the generation towards higher reward outcomes. We show that the prefix scorer may be trained on (possibly) off-policy data to predict the expected reward when decoding is continued from a partially decoded response. We empirically demonstrate that CD is effective as a control mechanism on Reddit conversations corpus. We also show that the modularity of the design of CD makes it possible to control for multiple rewards, effectively solving a multi-objective reinforcement learning problem with no additional complexity. Finally, we show that CD can be applied in a novel blockwise fashion at inference-time, again without the need for any training-time changes, essentially bridging the gap between the popular best-of-K strategy and token-level reinforcement learning. This makes CD a promising approach for alignment of language models.

Контролируемое декодирование языковых моделей

Controlled Decoding from Language Models

Аннотация

Support