非同期RLHF:言語モデル向けの高速かつ効率的なオフポリシーRL
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
October 23, 2024
著者: Michael Noukhovitch, Shengyi Huang, Sophie Xhonneux, Arian Hosseini, Rishabh Agarwal, Aaron Courville
cs.AI
要旨
RLHFにおける主流のパラダイムは、オンラインかつオンポリシーのRLです:大規模言語モデル(LLM)ポリシーから同期的に生成し、報酬モデルでラベリングし、LLM自体の出力にフィードバックを用いて学習します。このパラダイムは性能が高いですが、計算効率が悪いです。古典的な深層RL文献に触発され、RLHFにおける生成と学習を分離することを提案します。これにより、新しいサンプルを非同期的に生成しながら古いサンプルで同時にトレーニングできるため、より速いトレーニングとより計算効率の良いスケーリングが可能となります。ただし、非同期トレーニングは未探索の領域であり、オンラインですがオフポリシーのRLHFに依存しています:前回のモデルのイテレーションからのサンプルで学習します。この領域における課題を理解するために、基本的な問いに取り組みます:非同期トレーニングで学習を加速させつつ性能を維持するために、どれだけのオフポリシー性を許容できるでしょうか?私たちがテストした複数のRLHFアルゴリズムの中で、オンラインDPOがオフポリシーデータに最も強く、その頑健性はポリシーモデルのスケールとともに増加することを見つけました。非同期RLHFのさらなる計算最適化を検討しましたが、パフォーマンスのコストがかかることがわかり、トレードオフが生じます。最後に、非同期RLHFのスケーラビリティを検証し、同期実行と最終パフォーマンスを一致させながら、指示に従うタスクでLLaMA 3.1 8Bを40%速くトレーニングできることを確認しました。
English
The dominant paradigm for RLHF is online and on-policy RL: synchronously
generating from the large language model (LLM) policy, labelling with a reward
model, and learning using feedback on the LLM's own outputs. While performant,
this paradigm is computationally inefficient. Inspired by classical deep RL
literature, we propose separating generation and learning in RLHF. This enables
asynchronous generation of new samples while simultaneously training on old
samples, leading to faster training and more compute-optimal scaling. However,
asynchronous training relies on an underexplored regime, online but off-policy
RLHF: learning on samples from previous iterations of our model. To understand
the challenges in this regime, we investigate a fundamental question: how much
off-policyness can we tolerate for asynchronous training to speed up learning
but maintain performance? Among several RLHF algorithms we tested, we find that
online DPO is most robust to off-policy data, and robustness increases with the
scale of the policy model. We study further compute optimizations for
asynchronous RLHF but find that they come at a performance cost, giving rise to
a trade-off. Finally, we verify the scalability of asynchronous RLHF by
training LLaMA 3.1 8B on an instruction-following task 40% faster than a
synchronous run while matching final performance.Summary
AI-Generated Summary