SimBa: Einfachheitsbias zur Skalierung von Parametern im Deep Reinforcement Learning
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
Autoren: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
Zusammenfassung
Die jüngsten Fortschritte in der Computer Vision (CV) und der Natural Language Processing (NLP) wurden größtenteils durch die Skalierung der Anzahl der Netzwerkparameter vorangetrieben, obwohl traditionelle Theorien nahelegen, dass größere Netzwerke anfällig für Overfitting sind. Diese großen Netzwerke vermeiden Overfitting, indem sie Komponenten integrieren, die eine Einfachheitsneigung induzieren und Modelle zu einfachen und generalisierbaren Lösungen führen. Allerdings wurde das Design und die Skalierung von Netzwerken im Deep Reinforcement Learning (RL) weniger erforscht. Angespornt durch diese Gelegenheit präsentieren wir SimBa, eine Architektur, die darauf ausgelegt ist, die Parameter im Deep RL durch die Integration einer Einfachheitsneigung zu skalieren. SimBa besteht aus drei Komponenten: (i) einer Beobachtungsnormierungsschicht, die Eingaben mit laufenden Statistiken standardisiert, (ii) einem residualen Feedforward-Block, um einen linearen Pfad vom Eingang zum Ausgang bereitzustellen, und (iii) einer Schichtnormalisierung zur Kontrolle der Merkmalsmagnituden. Durch die Skalierung der Parameter mit SimBa wird die Stichprobeneffizienz verschiedener Deep RL-Algorithmen - einschließlich Off-Policy, On-Policy und unüberwachter Methoden - kontinuierlich verbessert. Darüber hinaus erreicht oder übertrifft allein durch die Integration der SimBa-Architektur in SAC diese den Stand der Technik in Deep RL-Methoden mit hoher Rechenleistungseffizienz über DMC, MyoSuite und HumanoidBench. Diese Ergebnisse zeigen die breite Anwendbarkeit und Wirksamkeit von SimBa über verschiedene RL-Algorithmen und Umgebungen hinweg.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary