BOND: ベスト・オブ・N蒸気による大規模言語モデルのアラインメント
BOND: Aligning LLMs with Best-of-N Distillation
July 19, 2024
著者: Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Nino Vieillard, Alexandre Ramé, Bobak Shariari, Sarah Perrin, Abe Friesen, Geoffrey Cideron, Sertan Girgin, Piotr Stanczyk, Andrea Michi, Danila Sinopalnikov, Sabela Ramos, Amélie Héliou, Aliaksei Severyn, Matt Hoffman, Nikola Momchev, Olivier Bachem
cs.AI
要旨
人間のフィードバックによる強化学習(RLHF)は、最先端の大規模言語モデルの品質と安全性を向上させる重要な要素です。しかし、驚くほどシンプルで強力な推論時戦略として、N個の候補から最良の生成を選択するBest-of-Nサンプリングがあります。本論文では、Best-of-Nの利点を模倣しつつ、推論時の大幅な計算コストを削減する新しいRLHFアルゴリズムであるBest-of-N蒸留(BOND)を提案します。具体的には、BONDは分布マッチングアルゴリズムであり、ポリシーからの生成分布をBest-of-N分布に近づけることを目指します。我々は、Jeffreysダイバージェンス(順方向と逆方向のKLの線形結合)を使用して、モードカバーリングとモードシーキングのバランスを取り、効率性のために移動アンカーを利用した反復式を導出します。要約生成とGemmaモデルを用いた実験を通じて、本手法の有効性といくつかの設計選択肢を実証します。BONDを用いてGemmaポリシーを調整することで、複数のベンチマークにおいて他のRLHFアルゴリズムを上回る結果が得られました。
English
Reinforcement learning from human feedback (RLHF) is a key driver of quality
and safety in state-of-the-art large language models. Yet, a surprisingly
simple and strong inference-time strategy is Best-of-N sampling that selects
the best generation among N candidates. In this paper, we propose Best-of-N
Distillation (BOND), a novel RLHF algorithm that seeks to emulate Best-of-N but
without its significant computational overhead at inference time. Specifically,
BOND is a distribution matching algorithm that forces the distribution of
generations from the policy to get closer to the Best-of-N distribution. We use
the Jeffreys divergence (a linear combination of forward and backward KL) to
balance between mode-covering and mode-seeking behavior, and derive an
iterative formulation that utilizes a moving anchor for efficiency. We
demonstrate the effectiveness of our approach and several design choices
through experiments on abstractive summarization and Gemma models. Aligning
Gemma policies with BOND outperforms other RLHF algorithms by improving results
on several benchmarks.Summary
AI-Generated Summary