ChatPaper.aiChatPaper

Mengsels van Experts Ontgrendelen Parameterschaling voor Diep Reinforcement Learning

Mixtures of Experts Unlock Parameter Scaling for Deep RL

February 13, 2024
Auteurs: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI

Samenvatting

De recente snelle vooruitgang in (zelf) gesuperviseerde leermodellen wordt grotendeels voorspeld door empirische schaalwetten: de prestaties van een model schalen evenredig met zijn grootte. Vergelijkbare schaalwetten blijven echter ongrijpbaar voor domeinen van reinforcement learning, waar het verhogen van het aantal parameters van een model vaak zijn uiteindelijke prestaties schaadt. In dit artikel tonen we aan dat het integreren van Mixture-of-Expert (MoE) modules, en in het bijzonder Soft MoEs (Puigcerver et al., 2023), in waardegestuurde netwerken resulteert in modellen die beter schaalbaar zijn qua parameters, wat blijkt uit aanzienlijke prestatieverbeteringen over een verscheidenheid aan trainingsregimes en modelgroottes. Dit werk levert daarmee sterk empirisch bewijs voor de ontwikkeling van schaalwetten voor reinforcement learning.
English
The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
PDF362February 7, 2026