ChatPaper.aiChatPaper

Diepgaande RL op basis van waardeschaalt voorspelbaar.

Value-Based Deep RL Scales Predictably

February 6, 2025
Auteurs: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI

Samenvatting

Het schalen van gegevens en rekenkracht is cruciaal voor het succes van machine learning. Echter, schalen vereist voorspelbaarheid: we willen dat methoden niet alleen goed presteren met meer rekenkracht of gegevens, maar ook dat hun prestaties voorspelbaar zijn op basis van kleinschalige runs, zonder de grootschalige experimenten uit te voeren. In dit artikel laten we zien dat value-based off-policy RL-methoden voorspelbaar zijn, ondanks de gemeenschappelijke overlevering over hun pathologisch gedrag. Ten eerste tonen we aan dat de gegevens- en rekenvereisten om een bepaald prestatieniveau te bereiken op een Pareto-frontlijn liggen, beheerst door de updates-to-data (UTD) ratio. Door deze frontlijn te schatten, kunnen we de gegevensvereiste voorspellen wanneer er meer rekenkracht beschikbaar is, en de rekenvereiste voorspellen wanneer er meer gegevens zijn. Ten tweede bepalen we de optimale verdeling van een totaal resourcebudget over gegevens en rekenkracht voor een bepaalde prestatie en gebruiken dit om hyperparameters te bepalen die de prestaties maximaliseren binnen een vastgesteld budget. Ten derde wordt dit schalingsgedrag mogelijk gemaakt door eerst voorspelbare relaties tussen hyperparameters te schatten, die worden gebruikt om de effecten van overfitting en plasticiteitsverlies uniek voor RL te beheren. We valideren onze aanpak met behulp van drie algoritmen: SAC, BRO en PQL op DeepMind Control, OpenAI gym en IsaacGym, bij het extrapoleren naar hogere niveaus van gegevens, rekenkracht, budget of prestaties.
English
Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.

Summary

AI-Generated Summary

PDF65February 10, 2025