Mischungen von Experten ermöglichen die Skalierung von Parametern für Deep Reinforcement Learning
Mixtures of Experts Unlock Parameter Scaling for Deep RL
February 13, 2024
Autoren: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI
Zusammenfassung
Der jüngste rasche Fortschritt bei (selbst) überwachten Lernmodellen wird größtenteils durch empirische Skalierungsgesetze vorhergesagt: Die Leistung eines Modells skaliert proportional zu seiner Größe. Analoge Skalierungsgesetze bleiben jedoch in Bereichen des Reinforcement Learning schwer fassbar, wo eine Erhöhung der Parameteranzahl eines Modells oft dessen Endleistung beeinträchtigt. In dieser Arbeit zeigen wir, dass die Integration von Mixture-of-Expert (MoE)-Modulen, insbesondere Soft MoEs (Puigcerver et al., 2023), in wertbasierte Netzwerke zu Modellen mit besserer Parameter-Skalierbarkeit führt, was durch erhebliche Leistungssteigerungen über eine Vielzahl von Trainingsregimen und Modellgrößen hinweg belegt wird. Diese Arbeit liefert somit starke empirische Belege für die Entwicklung von Skalierungsgesetzen im Reinforcement Learning.
English
The recent rapid progress in (self) supervised learning models is in large
part predicted by empirical scaling laws: a model's performance scales
proportionally to its size. Analogous scaling laws remain elusive for
reinforcement learning domains, however, where increasing the parameter count
of a model often hurts its final performance. In this paper, we demonstrate
that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs
(Puigcerver et al., 2023), into value-based networks results in more
parameter-scalable models, evidenced by substantial performance increases
across a variety of training regimes and model sizes. This work thus provides
strong empirical evidence towards developing scaling laws for reinforcement
learning.