ChatPaper.aiChatPaper

L'apprentissage par renforcement profond basé sur la valeur évolue de manière prévisible.

Value-Based Deep RL Scales Predictably

February 6, 2025
Auteurs: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI

Résumé

Mettre à l'échelle les données et les calculs est crucial pour la réussite de l'apprentissage automatique. Cependant, l'expansion exige de la prévisibilité : nous voulons que les méthodes non seulement performantes avec davantage de calculs ou de données, mais aussi que leur performance soit prévisible à partir d'exécutions à petite échelle, sans avoir à réaliser l'expérience à grande échelle. Dans cet article, nous montrons que les méthodes de RL hors politique basées sur la valeur sont prévisibles malgré les croyances de la communauté concernant leur comportement pathologique. Tout d'abord, nous montrons que les exigences en données et en calcul pour atteindre un niveau de performance donné se situent sur une frontière de Pareto, contrôlée par le ratio mises à jour sur données (UTD). En estimant cette frontière, nous pouvons prédire cette exigence en données lorsqu'on dispose de plus de calculs, et cette exigence en calculs lorsqu'on dispose de plus de données. Deuxièmement, nous déterminons l'allocation optimale d'un budget de ressources total entre données et calcul pour une performance donnée et l'utilisons pour déterminer les hyperparamètres qui maximisent la performance pour un budget donné. Troisièmement, ce comportement d'échelle est rendu possible en estimant d'abord des relations prévisibles entre les hyperparamètres, ce qui est utilisé pour gérer les effets du surajustement et de la perte de plasticité propres au RL. Nous validons notre approche en utilisant trois algorithmes : SAC, BRO et PQL sur DeepMind Control, OpenAI gym et IsaacGym, en extrapolant à des niveaux plus élevés de données, de calculs, de budget ou de performance.
English
Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.

Summary

AI-Generated Summary

PDF65February 10, 2025