SimBa : Biais de simplicité pour l'escalade des paramètres dans l'apprentissage par renforcement profond
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
Auteurs: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
Résumé
Les récentes avancées en vision par ordinateur (CV) et en traitement du langage naturel (NLP) ont largement été motivées par l'augmentation du nombre de paramètres du réseau, malgré les théories traditionnelles suggérant que les réseaux plus grands sont sujets au surajustement. Ces grands réseaux évitent le surajustement en intégrant des composants qui induisent un biais de simplicité, guidant les modèles vers des solutions simples et généralisables. Cependant, en apprentissage par renforcement profond (deep RL), la conception et l'augmentation des réseaux ont été moins explorées. Motivés par cette opportunité, nous présentons SimBa, une architecture conçue pour augmenter les paramètres en deep RL en injectant un biais de simplicité. SimBa se compose de trois composants : (i) une couche de normalisation des observations qui standardise les entrées avec des statistiques en cours d'exécution, (ii) un bloc feedforward résiduel pour fournir un chemin linéaire de l'entrée à la sortie, et (iii) une normalisation de couche pour contrôler les magnitudes des caractéristiques. En augmentant les paramètres avec SimBa, l'efficacité d'échantillonnage de divers algorithmes de deep RL - y compris hors politique, sur politique et non supervisés - est constamment améliorée. De plus, en intégrant uniquement l'architecture SimBa dans SAC, elle égale ou dépasse les méthodes de deep RL de pointe en termes d'efficacité computationnelle sur DMC, MyoSuite et HumanoidBench. Ces résultats démontrent la large applicabilité et l'efficacité de SimBa à travers divers algorithmes et environnements de RL.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary