Le Miscele di Esperti Sbloccano il Ridimensionamento dei Parametri per il Deep RL

Abstract

I recenti rapidi progressi nei modelli di apprendimento (auto) supervisionato sono in gran parte previsti da leggi di scala empiriche: le prestazioni di un modello aumentano proporzionalmente alla sua dimensione. Tuttavia, leggi di scala analoghe rimangono elusive nei domini dell'apprendimento per rinforzo, dove l'aumento del numero di parametri di un modello spesso ne compromette le prestazioni finali. In questo articolo, dimostriamo che l'incorporazione di moduli Mixture-of-Expert (MoE), e in particolare Soft MoEs (Puigcerver et al., 2023), nelle reti basate su valori porta a modelli più scalabili in termini di parametri, come evidenziato da sostanziali miglioramenti delle prestazioni in una varietà di regimi di addestramento e dimensioni del modello. Questo lavoro fornisce quindi una forte evidenza empirica verso lo sviluppo di leggi di scala per l'apprendimento per rinforzo.

English

The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.

Le Miscele di Esperti Sbloccano il Ridimensionamento dei Parametri per il Deep RL

Mixtures of Experts Unlock Parameter Scaling for Deep RL

Abstract

Support