ChatPaper.aiChatPaper

Mischungen von Experten ermöglichen die Skalierung von Parametern für Deep Reinforcement Learning

Mixtures of Experts Unlock Parameter Scaling for Deep RL

February 13, 2024
Autoren: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
cs.AI

Zusammenfassung

Der jüngste rasche Fortschritt bei (selbst) überwachten Lernmodellen wird größtenteils durch empirische Skalierungsgesetze vorhergesagt: Die Leistung eines Modells skaliert proportional zu seiner Größe. Analoge Skalierungsgesetze bleiben jedoch in Bereichen des Reinforcement Learning schwer fassbar, wo eine Erhöhung der Parameteranzahl eines Modells oft dessen Endleistung beeinträchtigt. In dieser Arbeit zeigen wir, dass die Integration von Mixture-of-Expert (MoE)-Modulen, insbesondere Soft MoEs (Puigcerver et al., 2023), in wertbasierte Netzwerke zu Modellen mit besserer Parameter-Skalierbarkeit führt, was durch erhebliche Leistungssteigerungen über eine Vielzahl von Trainingsregimen und Modellgrößen hinweg belegt wird. Diese Arbeit liefert somit starke empirische Belege für die Entwicklung von Skalierungsgesetzen im Reinforcement Learning.
English
The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
PDF372December 15, 2024