Las Mezclas de Expertos Desbloquean el Escalado de Parámetros para el Aprendizaje por Refuerzo Profundo
Mixtures of Experts Unlock Parameter Scaling for Deep RL
February 13, 2024
Autores: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI
Resumen
El reciente y rápido progreso en los modelos de aprendizaje (auto)supervisado se predice en gran medida por leyes de escalado empíricas: el rendimiento de un modelo escala proporcionalmente a su tamaño. Sin embargo, leyes de escalado análogas siguen siendo esquivas en los dominios de aprendizaje por refuerzo, donde aumentar el número de parámetros de un modelo a menudo perjudica su rendimiento final. En este artículo, demostramos que la incorporación de módulos de Mezcla de Expertos (MoE), y en particular Soft MoEs (Puigcerver et al., 2023), en redes basadas en valor resulta en modelos más escalables en términos de parámetros, evidenciado por aumentos sustanciales en el rendimiento en una variedad de regímenes de entrenamiento y tamaños de modelos. Este trabajo proporciona, por tanto, una fuerte evidencia empírica hacia el desarrollo de leyes de escalado para el aprendizaje por refuerzo.
English
The recent rapid progress in (self) supervised learning models is in large
part predicted by empirical scaling laws: a model's performance scales
proportionally to its size. Analogous scaling laws remain elusive for
reinforcement learning domains, however, where increasing the parameter count
of a model often hurts its final performance. In this paper, we demonstrate
that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs
(Puigcerver et al., 2023), into value-based networks results in more
parameter-scalable models, evidenced by substantial performance increases
across a variety of training regimes and model sizes. This work thus provides
strong empirical evidence towards developing scaling laws for reinforcement
learning.