SimBa: Sesgo hacia la simplicidad para escalar parámetros en el Aprendizaje Profundo por Reforzamiento
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
Autores: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
Resumen
Los avances recientes en CV y NLP han sido impulsados en gran medida por el aumento en el número de parámetros de red, a pesar de que las teorías tradicionales sugieren que las redes más grandes son propensas al sobreajuste. Estas redes grandes evitan el sobreajuste al integrar componentes que inducen un sesgo hacia la simplicidad, guiando a los modelos hacia soluciones simples y generalizables. Sin embargo, en el aprendizaje profundo por refuerzo, el diseño y la ampliación de redes han sido menos explorados. Motivados por esta oportunidad, presentamos SimBa, una arquitectura diseñada para ampliar los parámetros en el aprendizaje profundo por refuerzo al inyectar un sesgo hacia la simplicidad. SimBa consta de tres componentes: (i) una capa de normalización de observaciones que estandariza las entradas con estadísticas en ejecución, (ii) un bloque residual feedforward para proporcionar una vía lineal desde la entrada hasta la salida, y (iii) una normalización de capa para controlar las magnitudes de las características. Al ampliar los parámetros con SimBa, la eficiencia de muestra de varios algoritmos de aprendizaje profundo por refuerzo, incluidos los métodos fuera de política, en política y no supervisados, se mejora de manera consistente. Además, solo integrando la arquitectura de SimBa en SAC, coincide o supera a los métodos de aprendizaje profundo por refuerzo de vanguardia con alta eficiencia computacional en DMC, MyoSuite y HumanoidBench. Estos resultados demuestran la amplia aplicabilidad y efectividad de SimBa en diversos algoritmos y entornos de aprendizaje por refuerzo.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary