SimBa: Bias di Semplicità per l'Incremento dei Parametri nel Deep Reinforcement Learning
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
Autori: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
Abstract
I recenti progressi in CV e NLP sono stati in gran parte determinati dall'incremento del numero di parametri di rete, nonostante le teorie tradizionali suggeriscano che reti più grandi siano inclini all'overfitting. Queste reti di grandi dimensioni evitano l'overfitting integrando componenti che inducono un bias verso la semplicità, guidando i modelli verso soluzioni semplici e generalizzabili. Tuttavia, nel deep RL, la progettazione e l'incremento delle reti sono state meno esplorate. Motivati da questa opportunità, presentiamo SimBa, un'architettura progettata per aumentare i parametri nel deep RL introducendo un bias verso la semplicità. SimBa è composto da tre componenti: (i) uno strato di normalizzazione delle osservazioni che standardizza gli input con statistiche in esecuzione, (ii) un blocco feedforward residuale per fornire un percorso lineare dall'input all'output, e (iii) una normalizzazione di livello per controllare le grandezze delle caratteristiche. Aumentando i parametri con SimBa, l'efficienza campionaria di vari algoritmi deep RL, inclusi quelli off-policy, on-policy e non supervisionati, viene costantemente migliorata. Inoltre, solo integrando l'architettura SimBa in SAC, essa si equipara o supera i metodi deep RL all'avanguardia con un'elevata efficienza computazionale su DMC, MyoSuite e HumanoidBench. Questi risultati dimostrano la vasta applicabilità ed efficacia di SimBa attraverso diversi algoritmi e ambienti di RL.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary