Il Reinforcement Learning Profondo basato sul Valore si scala in modo prevedibile.
Value-Based Deep RL Scales Predictably
February 6, 2025
Autori: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI
Abstract
Scalare dati e calcolo è fondamentale per il successo del machine learning. Tuttavia, la scalabilità richiede prevedibilità: desideriamo che i metodi non solo si comportino bene con più calcolo o dati, ma che anche le loro prestazioni siano prevedibili a partire da esperimenti su piccola scala, senza eseguire l'esperimento su larga scala. In questo articolo, dimostriamo che i metodi di apprendimento per rinforzo basati sul valore e fuori politica sono prevedibili nonostante le credenze diffuse nella comunità riguardo al loro comportamento patologico. In primo luogo, mostriamo che i requisiti di dati e calcolo per raggiungere un determinato livello di prestazioni si trovano su una frontiera di Pareto, controllata dal rapporto aggiornamenti-dati (UTD). Stimando questa frontiera, possiamo prevedere il requisito di dati quando si dispone di più calcolo e il requisito di calcolo quando si dispone di più dati. In secondo luogo, determiniamo l'allocazione ottimale di un budget di risorse totale tra dati e calcolo per un dato livello di prestazioni e lo utilizziamo per determinare gli iperparametri che massimizzano le prestazioni per un dato budget. In terzo luogo, questo comportamento di scalabilità è reso possibile stimando innanzitutto relazioni prevedibili tra gli iperparametri, che vengono utilizzate per gestire gli effetti dell'overfitting e della perdita di plasticità unici al RL. Convalidiamo il nostro approccio utilizzando tre algoritmi: SAC, BRO e PQL su DeepMind Control, OpenAI gym e IsaacGym, quando si effettua una previsione a livelli superiori di dati, calcolo, budget o prestazioni.
English
Scaling data and compute is critical to the success of machine learning.
However, scaling demands predictability: we want methods to not only perform
well with more compute or data, but also have their performance be predictable
from small-scale runs, without running the large-scale experiment. In this
paper, we show that value-based off-policy RL methods are predictable despite
community lore regarding their pathological behavior. First, we show that data
and compute requirements to attain a given performance level lie on a Pareto
frontier, controlled by the updates-to-data (UTD) ratio. By estimating this
frontier, we can predict this data requirement when given more compute, and
this compute requirement when given more data. Second, we determine the optimal
allocation of a total resource budget across data and compute for a given
performance and use it to determine hyperparameters that maximize performance
for a given budget. Third, this scaling behavior is enabled by first estimating
predictable relationships between hyperparameters, which is used to manage
effects of overfitting and plasticity loss unique to RL. We validate our
approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI
gym, and IsaacGym, when extrapolating to higher levels of data, compute,
budget, or performance.Summary
AI-Generated Summary