ChatPaper.aiChatPaper

Las Mezclas de Expertos Desbloquean el Escalado de Parámetros para el Aprendizaje por Refuerzo Profundo

Mixtures of Experts Unlock Parameter Scaling for Deep RL

February 13, 2024
Autores: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI

Resumen

El reciente y rápido progreso en los modelos de aprendizaje (auto)supervisado se predice en gran medida por leyes de escalado empíricas: el rendimiento de un modelo escala proporcionalmente a su tamaño. Sin embargo, leyes de escalado análogas siguen siendo esquivas en los dominios de aprendizaje por refuerzo, donde aumentar el número de parámetros de un modelo a menudo perjudica su rendimiento final. En este artículo, demostramos que la incorporación de módulos de Mezcla de Expertos (MoE), y en particular Soft MoEs (Puigcerver et al., 2023), en redes basadas en valor resulta en modelos más escalables en términos de parámetros, evidenciado por aumentos sustanciales en el rendimiento en una variedad de regímenes de entrenamiento y tamaños de modelos. Este trabajo proporciona, por tanto, una fuerte evidencia empírica hacia el desarrollo de leyes de escalado para el aprendizaje por refuerzo.
English
The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
PDF372December 15, 2024