ChatPaper.aiChatPaper

Misturas de Especialistas Desbloqueiam Escalonamento de Parâmetros para Aprendizado por Reforço Profundo

Mixtures of Experts Unlock Parameter Scaling for Deep RL

February 13, 2024
Autores: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI

Resumo

O rápido progresso recente em modelos de aprendizado (auto) supervisionado é em grande parte previsto por leis de escalonamento empíricas: o desempenho de um modelo escala proporcionalmente ao seu tamanho. Leis de escalonamento análogas permanecem elusivas para domínios de aprendizado por reforço, no entanto, onde o aumento do número de parâmetros de um modelo frequentemente prejudica seu desempenho final. Neste artigo, demonstramos que a incorporação de módulos de Mistura de Especialistas (MoE), e em particular Soft MoEs (Puigcerver et al., 2023), em redes baseadas em valor resulta em modelos mais escaláveis em termos de parâmetros, evidenciado por aumentos substanciais de desempenho em uma variedade de regimes de treinamento e tamanhos de modelos. Este trabalho, portanto, fornece fortes evidências empíricas para o desenvolvimento de leis de escalonamento para aprendizado por reforço.
English
The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
PDF362February 7, 2026