ChatPaper.aiChatPaper

Wertebasiertes Deep Reinforcement Learning skaliert vorhersehbar.

Value-Based Deep RL Scales Predictably

February 6, 2025
Autoren: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI

Zusammenfassung

Das Skalieren von Daten und Rechenleistung ist entscheidend für den Erfolg des maschinellen Lernens. Allerdings erfordert Skalierung Vorhersagbarkeit: Wir möchten, dass Methoden nicht nur mit mehr Rechenleistung oder Daten gut funktionieren, sondern auch, dass ihre Leistung von kleinen Durchläufen aus vorhersehbar ist, ohne das groß angelegte Experiment durchführen zu müssen. In diesem Artikel zeigen wir, dass wertbasierte Off-Policy-RL-Methoden trotz der in der Community kursierenden Überlieferungen über ihr pathologisches Verhalten vorhersehbar sind. Zunächst zeigen wir, dass die Anforderungen an Daten und Rechenleistung zur Erreichung eines bestimmten Leistungsniveaus auf einer Pareto-Front liegen, die durch das Verhältnis von Aktualisierungen zu Daten (UTD) gesteuert wird. Durch die Schätzung dieser Front können wir den Bedarf an Daten vorhersagen, wenn mehr Rechenleistung gegeben ist, und den Bedarf an Rechenleistung vorhersagen, wenn mehr Daten gegeben sind. Zweitens bestimmen wir die optimale Zuweisung eines Gesamtressourcenbudgets für Daten und Rechenleistung für eine bestimmte Leistung und verwenden sie, um Hyperparameter zu bestimmen, die die Leistung für ein bestimmtes Budget maximieren. Drittens wird dieses Skalierungsverhalten durch die erste Schätzung vorhersagbarer Beziehungen zwischen Hyperparametern ermöglicht, die zur Verwaltung der Effekte von Überanpassung und Plastizitätsverlust, die für RL einzigartig sind, verwendet werden. Wir validieren unseren Ansatz unter Verwendung von drei Algorithmen: SAC, BRO und PQL auf DeepMind Control, OpenAI Gym und IsaacGym, wenn es um die Extrapolation auf höhere Ebenen von Daten, Rechenleistung, Budget oder Leistung geht.
English
Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.

Summary

AI-Generated Summary

PDF65February 10, 2025