SimBa: Склонность к простоте для масштабирования параметров в глубоком обучении с подкреплением
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
Авторы: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
Аннотация
Недавние достижения в области компьютерного зрения (CV) и обработки естественного языка (NLP) в значительной степени обусловлены увеличением количества параметров сети, несмотря на традиционные теории, указывающие на то, что более крупные сети склонны к переобучению. Эти большие сети избегают переобучения путем интеграции компонентов, которые вызывают предвзятость к простоте, направляя модели к простым и обобщаемым решениям. Однако в глубоком обучении с подкреплением (RL) проектирование и увеличение масштабов сетей были менее исследованы. Вдохновленные этими возможностями, мы представляем SimBa, архитектуру, разработанную для увеличения параметров в глубоком RL путем внедрения предвзятости к простоте. SimBa состоит из трех компонентов: (i) слоя нормализации наблюдений, который стандартизирует входные данные с помощью текущих статистических данных, (ii) блока остаточной прямой связи для обеспечения линейного пути от входа к выходу и (iii) слоя нормализации для контроля величин признаков. Увеличивая параметры с помощью SimBa, эффективность использования выборок различных алгоритмов глубокого RL, включая алгоритмы с оффлайн, онлайн и без учителя, последовательно улучшается. Более того, просто интегрируя архитектуру SimBa в SAC, она соответствует или превосходит современные методы глубокого RL с высокой вычислительной эффективностью на платформах DMC, MyoSuite и HumanoidBench. Эти результаты демонстрируют широкие возможности и эффективность SimBa в различных алгоритмах и средах обучения с подкреплением.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary