Le Miscele di Esperti Sbloccano il Ridimensionamento dei Parametri per il Deep RL
Mixtures of Experts Unlock Parameter Scaling for Deep RL
February 13, 2024
Autori: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI
Abstract
I recenti rapidi progressi nei modelli di apprendimento (auto) supervisionato sono in gran parte previsti da leggi di scala empiriche: le prestazioni di un modello aumentano proporzionalmente alla sua dimensione. Tuttavia, leggi di scala analoghe rimangono elusive nei domini dell'apprendimento per rinforzo, dove l'aumento del numero di parametri di un modello spesso ne compromette le prestazioni finali. In questo articolo, dimostriamo che l'incorporazione di moduli Mixture-of-Expert (MoE), e in particolare Soft MoEs (Puigcerver et al., 2023), nelle reti basate su valori porta a modelli più scalabili in termini di parametri, come evidenziato da sostanziali miglioramenti delle prestazioni in una varietà di regimi di addestramento e dimensioni del modello. Questo lavoro fornisce quindi una forte evidenza empirica verso lo sviluppo di leggi di scala per l'apprendimento per rinforzo.
English
The recent rapid progress in (self) supervised learning models is in large
part predicted by empirical scaling laws: a model's performance scales
proportionally to its size. Analogous scaling laws remain elusive for
reinforcement learning domains, however, where increasing the parameter count
of a model often hurts its final performance. In this paper, we demonstrate
that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs
(Puigcerver et al., 2023), into value-based networks results in more
parameter-scalable models, evidenced by substantial performance increases
across a variety of training regimes and model sizes. This work thus provides
strong empirical evidence towards developing scaling laws for reinforcement
learning.