価値ベースの深層強化学習は予測可能にスケールします。
Value-Based Deep RL Scales Predictably
February 6, 2025
著者: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI
要旨
データと計算のスケーリングは、機械学習の成功にとって重要です。
ただし、スケーリングには予測可能性が求められます:より多くの計算リソースやデータを使用しても、パフォーマンスが向上するだけでなく、小規模な実験からもそのパフォーマンスを予測できる方法が必要です。本論文では、価値ベースのオフポリシー強化学習手法が、その病的な振る舞いに関するコミュニティの伝説にもかかわらず、予測可能であることを示します。まず、与えられたパフォーマンスレベルを達成するためのデータと計算リソースの要件がパレートフロンティア上にあり、これはデータ更新率(UTD)によって制御されています。このフロンティアを推定することで、より多くの計算リソースが与えられた場合のデータ要件、およびより多くのデータが与えられた場合の計算要件を予測できます。第二に、与えられたパフォーマンスに対してデータと計算リソース全体の予算を最適に割り当て、与えられた予算でパフォーマンスを最大化するためのハイパーパラメータを決定します。第三に、このスケーリング振る舞いは、まず強化学習に固有の過学習や可塑性損失の影響を管理するために、ハイパーパラメータ間の予測可能な関係を最初に推定することによって可能になります。我々は、DeepMind Control、OpenAI gym、IsaacGymにおいて、データ、計算リソース、予算、またはパフォーマンスの高いレベルへの外挿時に、SAC、BRO、PQLの3つのアルゴリズムを使用して、このアプローチを検証します。
English
Scaling data and compute is critical to the success of machine learning.
However, scaling demands predictability: we want methods to not only perform
well with more compute or data, but also have their performance be predictable
from small-scale runs, without running the large-scale experiment. In this
paper, we show that value-based off-policy RL methods are predictable despite
community lore regarding their pathological behavior. First, we show that data
and compute requirements to attain a given performance level lie on a Pareto
frontier, controlled by the updates-to-data (UTD) ratio. By estimating this
frontier, we can predict this data requirement when given more compute, and
this compute requirement when given more data. Second, we determine the optimal
allocation of a total resource budget across data and compute for a given
performance and use it to determine hyperparameters that maximize performance
for a given budget. Third, this scaling behavior is enabled by first estimating
predictable relationships between hyperparameters, which is used to manage
effects of overfitting and plasticity loss unique to RL. We validate our
approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI
gym, and IsaacGym, when extrapolating to higher levels of data, compute,
budget, or performance.Summary
AI-Generated Summary