専門家の混合モデルが深層強化学習におけるパラメータスケーリングを実現
Mixtures of Experts Unlock Parameter Scaling for Deep RL
February 13, 2024
著者: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI
要旨
近年の(自己)教師あり学習モデルの急速な進歩は、主に経験的なスケーリング則によって予測されています。つまり、モデルの性能はそのサイズに比例して向上します。しかし、強化学習の分野では、モデルのパラメータ数を増やすことが最終的な性能を低下させることが多く、同様のスケーリング則はまだ確立されていません。本論文では、価値ベースのネットワークにMixture-of-Expert(MoE)モジュール、特にSoft MoEs(Puigcerver et al., 2023)を組み込むことで、よりパラメータスケーラブルなモデルが得られることを実証します。これは、様々なトレーニング体制やモデルサイズにおいて大幅な性能向上が観察されたことによって裏付けられています。したがって、本研究は強化学習におけるスケーリング則の開発に向けた強力な経験的証拠を提供するものです。
English
The recent rapid progress in (self) supervised learning models is in large
part predicted by empirical scaling laws: a model's performance scales
proportionally to its size. Analogous scaling laws remain elusive for
reinforcement learning domains, however, where increasing the parameter count
of a model often hurts its final performance. In this paper, we demonstrate
that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs
(Puigcerver et al., 2023), into value-based networks results in more
parameter-scalable models, evidenced by substantial performance increases
across a variety of training regimes and model sizes. This work thus provides
strong empirical evidence towards developing scaling laws for reinforcement
learning.