自己探索型言語モデル:オンラインアラインメントのための能動的選好抽出
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
著者: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
要旨
人間のフィードバックからの強化学習(RLHF)を介した選好最適化は、大規模言語モデル(LLM)を人間の意図に沿わせることに大きな成功を収めてきました。固定データセットを用いたオフラインアライメントとは異なり、モデルの生成に対して人間やAIからオンラインでフィードバックを収集するプロセスは、通常、より優れた報酬モデルとより良くアライメントされたLLMを反復的に生み出します。しかし、グローバルに正確な報酬モデルを達成するためには、自然言語の広大な空間をカバーする多様な応答を生成するための体系的な探索が必要です。標準的な報酬最大化LLMからのランダムサンプリングだけでは、この要件を満たすには不十分です。この問題に対処するため、我々は、分布外領域を積極的に探索するために、潜在的に高報酬な応答に対して楽観的にバイアスをかけた二段階目的関数を提案します。再パラメータ化された報酬関数を用いて内側の問題を解くことで、別個の報酬モデル(RM)を必要とせず、単純な目的関数でLLMを反復的に更新する「自己探索型言語モデル(SELM)」というアルゴリズムを導出します。直接選好最適化(DPO)と比較して、SELMの目的関数は、未見の外挿を無差別に偏重することを減らし、探索効率を向上させます。我々の実験結果は、Zephyr-7B-SFTおよびLlama-3-8B-Instructモデルに対してファインチューニングを行った場合、SELMがMT-BenchやAlpacaEval 2.0などの指示追従ベンチマーク、および様々な設定における標準的な学術ベンチマークにおいて、性能を大幅に向上させることを示しています。コードとモデルはhttps://github.com/shenao-zhang/SELMで公開されています。
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.Summary
AI-Generated Summary