BOND: Выравнивание LLM с дистилляцией лучших N.

Аннотация

Обучение с подкреплением на основе обратной связи от человека (RLHF) является ключевым фактором качества и безопасности в современных крупных языковых моделях. Тем не менее, удивительно простой и эффективный стратегией на этапе вывода является выбор лучшего из N сгенерированных вариантов, называемый Best-of-N sampling. В данной статье мы предлагаем метод Best-of-N Distillation (BOND), новый алгоритм RLHF, который стремится эмулировать Best-of-N, но без значительных вычислительных затрат на этапе вывода. Конкретно, BOND является алгоритмом сопоставления распределений, который заставляет распределение сгенерированных вариантов от политики приближаться к распределению Best-of-N. Мы используем дивергенцию Джеффриса (линейную комбинацию прямой и обратной KL) для балансировки между покрытием мод и поиском мод, и выводим итеративную формулировку, использующую подвижный якорь для эффективности. Мы демонстрируем эффективность нашего подхода и нескольких дизайнерских решений через эксперименты по абстрактному резюмированию и моделям Gemma. Выравнивание политик Gemma с BOND превосходит другие алгоритмы RLHF, улучшая результаты на нескольких бенчмарках.

English

Reinforcement learning from human feedback (RLHF) is a key driver of quality and safety in state-of-the-art large language models. Yet, a surprisingly simple and strong inference-time strategy is Best-of-N sampling that selects the best generation among N candidates. In this paper, we propose Best-of-N Distillation (BOND), a novel RLHF algorithm that seeks to emulate Best-of-N but without its significant computational overhead at inference time. Specifically, BOND is a distribution matching algorithm that forces the distribution of generations from the policy to get closer to the Best-of-N distribution. We use the Jeffreys divergence (a linear combination of forward and backward KL) to balance between mode-covering and mode-seeking behavior, and derive an iterative formulation that utilizes a moving anchor for efficiency. We demonstrate the effectiveness of our approach and several design choices through experiments on abstractive summarization and Gemma models. Aligning Gemma policies with BOND outperforms other RLHF algorithms by improving results on several benchmarks.

BOND: Выравнивание LLM с дистилляцией лучших N.

BOND: Aligning LLMs with Best-of-N Distillation

Аннотация

Support