SimBa: Viés de Simplicidade para Escalonamento de Parâmetros em Aprendizado Profundo por Reforço
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
Autores: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
Resumo
Os avanços recentes em Visão Computacional (CV) e Processamento de Linguagem Natural (NLP) foram amplamente impulsionados pelo aumento do número de parâmetros de rede, apesar das teorias tradicionais sugerirem que redes maiores são propensas ao overfitting. Essas redes grandes evitam o overfitting integrando componentes que induzem um viés de simplicidade, orientando os modelos em direção a soluções simples e generalizáveis. No entanto, no Aprendizado por Reforço Profundo (RL), o projeto e a ampliação de redes têm sido menos explorados. Motivados por essa oportunidade, apresentamos o SimBa, uma arquitetura projetada para escalar os parâmetros no RL profundo ao injetar um viés de simplicidade. O SimBa é composto por três componentes: (i) uma camada de normalização de observações que padroniza as entradas com estatísticas em execução, (ii) um bloco residual feedforward para fornecer um caminho linear da entrada para a saída e (iii) uma normalização de camada para controlar as magnitudes das características. Ao escalar os parâmetros com o SimBa, a eficiência amostral de vários algoritmos de RL profundo - incluindo métodos off-policy, on-policy e não supervisionados - é consistentemente melhorada. Além disso, apenas integrando a arquitetura SimBa ao SAC, ela corresponde ou supera os métodos de RL profundo de última geração com alta eficiência computacional em DMC, MyoSuite e HumanoidBench. Esses resultados demonstram a ampla aplicabilidade e eficácia do SimBa em diversos algoritmos e ambientes de RL.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary