Les mélanges d'experts débloquent la mise à l'échelle des paramètres pour l'apprentissage par renforcement profond
Mixtures of Experts Unlock Parameter Scaling for Deep RL
February 13, 2024
Auteurs: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI
Résumé
Les récents progrès rapides dans les modèles d'apprentissage (auto-)supervisé sont en grande partie prédits par des lois d'échelle empiriques : la performance d'un modèle augmente proportionnellement à sa taille. Cependant, des lois d'échelle analogues restent insaisissables dans les domaines de l'apprentissage par renforcement, où l'augmentation du nombre de paramètres d'un modèle nuit souvent à ses performances finales. Dans cet article, nous démontrons que l'intégration de modules Mixture-of-Experts (MoE), et en particulier des Soft MoEs (Puigcerver et al., 2023), dans les réseaux basés sur la valeur conduit à des modèles plus évolutifs en termes de paramètres, comme en témoignent des augmentations substantielles de performance à travers une variété de régimes d'entraînement et de tailles de modèles. Ce travail fournit donc des preuves empiriques solides en faveur du développement de lois d'échelle pour l'apprentissage par renforcement.
English
The recent rapid progress in (self) supervised learning models is in large
part predicted by empirical scaling laws: a model's performance scales
proportionally to its size. Analogous scaling laws remain elusive for
reinforcement learning domains, however, where increasing the parameter count
of a model often hurts its final performance. In this paper, we demonstrate
that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs
(Puigcerver et al., 2023), into value-based networks results in more
parameter-scalable models, evidenced by substantial performance increases
across a variety of training regimes and model sizes. This work thus provides
strong empirical evidence towards developing scaling laws for reinforcement
learning.Summary
AI-Generated Summary