SimBa: 深層強化学習におけるパラメータのスケーリングを簡素化するバイアス
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
著者: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
要旨
CVとNLPの最近の進歩は、従来の理論が大きなネットワークが過学習しやすいと示唆しているにも関わらず、ネットワークパラメータの数を拡大することによって主に推進されています。これらの大規模ネットワークは、シンプルさを促すコンポーネントを統合することで過学習を回避し、モデルを単純で汎用性のある解に導きます。しかし、深層強化学習では、ネットワークの設計と拡大についてはあまり探求されていませんでした。この機会に着想を得て、我々はSimBaを提案します。これは、深層強化学習においてパラメータを拡大するためにシンプルさのバイアスを注入するよう設計されたアーキテクチャです。SimBaには、次の3つのコンポーネントが含まれています:(i) 実行統計を用いて入力を標準化する観測正規化層、(ii) 入力から出力への線形経路を提供する残差フィードフォワードブロック、および(iii) 特徴の大きさを制御する層正規化。SimBaを用いてパラメータを拡大することで、オフポリシー、オンポリシー、および教師なし手法を含むさまざまな深層強化学習アルゴリズムのサンプル効率が一貫して向上します。さらに、SACにSimBaアーキテクチャを統合するだけで、DMC、MyoSuite、およびHumanoidBenchを通じて高い計算効率で最先端の深層強化学習手法に匹敵するかそれを上回る結果が得られます。これらの結果は、SimBaの幅広い応用可能性と異なるRLアルゴリズムや環境における効果を示しています。
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary