ChatPaper.aiChatPaper

自己探索型言語モデル:オンラインアラインメントのための能動的選好抽出

Self-Exploring Language Models: Active Preference Elicitation for Online Alignment

May 29, 2024
著者: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI

要旨

人間のフィードバックからの強化学習(RLHF)を介した選好最適化は、大規模言語モデル(LLM)を人間の意図に沿わせることに大きな成功を収めてきました。固定データセットを用いたオフラインアライメントとは異なり、モデルの生成に対して人間やAIからオンラインでフィードバックを収集するプロセスは、通常、より優れた報酬モデルとより良くアライメントされたLLMを反復的に生み出します。しかし、グローバルに正確な報酬モデルを達成するためには、自然言語の広大な空間をカバーする多様な応答を生成するための体系的な探索が必要です。標準的な報酬最大化LLMからのランダムサンプリングだけでは、この要件を満たすには不十分です。この問題に対処するため、我々は、分布外領域を積極的に探索するために、潜在的に高報酬な応答に対して楽観的にバイアスをかけた二段階目的関数を提案します。再パラメータ化された報酬関数を用いて内側の問題を解くことで、別個の報酬モデル(RM)を必要とせず、単純な目的関数でLLMを反復的に更新する「自己探索型言語モデル(SELM)」というアルゴリズムを導出します。直接選好最適化(DPO)と比較して、SELMの目的関数は、未見の外挿を無差別に偏重することを減らし、探索効率を向上させます。我々の実験結果は、Zephyr-7B-SFTおよびLlama-3-8B-Instructモデルに対してファインチューニングを行った場合、SELMがMT-BenchやAlpacaEval 2.0などの指示追従ベンチマーク、および様々な設定における標準的な学術ベンチマークにおいて、性能を大幅に向上させることを示しています。コードとモデルはhttps://github.com/shenao-zhang/SELMで公開されています。
English
Preference optimization, particularly through Reinforcement Learning from Human Feedback (RLHF), has achieved significant success in aligning Large Language Models (LLMs) to adhere to human intentions. Unlike offline alignment with a fixed dataset, online feedback collection from humans or AI on model generations typically leads to more capable reward models and better-aligned LLMs through an iterative process. However, achieving a globally accurate reward model requires systematic exploration to generate diverse responses that span the vast space of natural language. Random sampling from standard reward-maximizing LLMs alone is insufficient to fulfill this requirement. To address this issue, we propose a bilevel objective optimistically biased towards potentially high-reward responses to actively explore out-of-distribution regions. By solving the inner-level problem with the reparameterized reward function, the resulting algorithm, named Self-Exploring Language Models (SELM), eliminates the need for a separate RM and iteratively updates the LLM with a straightforward objective. Compared to Direct Preference Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen extrapolations and enhances exploration efficiency. Our experimental results demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct models, SELM significantly boosts the performance on instruction-following benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard academic benchmarks in different settings. Our code and models are available at https://github.com/shenao-zhang/SELM.

Summary

AI-Generated Summary

PDF231December 12, 2024