大規模における効率的な探索
Efficient Exploration at Scale
March 18, 2026
著者: Seyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy
cs.AI
要旨
本論文では、人間のフィードバックによる強化学習(RLHF)のデータ効率を劇的に改善するオンライン学習アルゴリズムを開発する。本アルゴリズムは、選択データが得られる度に報酬モデルと言語モデルを逐次更新する。報酬モデルは選択データに適合するように調整され、言語モデルは報酬モデルが提供する強化学習信号を用いたREINFORCE法の変種により更新される。この効率向上を実現するいくつかの特徴として、各強化学習信号に追加される少量の肯定的なナッジ、報酬の不確実性をモデル化する認識的ニューラルネットワーク、情報駆動型探索が挙げられる。Gemma大規模言語モデル(LLM)を用いた場合、本アルゴリズムは20,000ラベル未満のデータで、20万ラベルで学習されたオフラインRLHFと同等の性能を達成し、データ効率で10倍以上の向上を示した。結果を外挿すると、100万ラベルで学習した本アルゴリズムが、10億ラベルで学習したオフラインRLHFに匹敵すると予想され、これは1,000倍の効率向上に相当する。我々の知る限り、これほど大幅な改善が可能であることを実証した初の成果である。
English
We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.