El Aprendizaje Profundo Basado en el Valor Escala de forma Predecible
Value-Based Deep RL Scales Predictably
February 6, 2025
Autores: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI
Resumen
Escalar datos y cómputo es fundamental para el éxito del aprendizaje automático. Sin embargo, la escalabilidad requiere previsibilidad: queremos que los métodos no solo funcionen bien con más cómputo o datos, sino que también tengan un rendimiento predecible a partir de ejecuciones a pequeña escala, sin necesidad de llevar a cabo el experimento a gran escala. En este artículo, demostramos que los métodos de RL basados en el valor y fuera de política son predecibles a pesar de las creencias comunes sobre su comportamiento patológico. En primer lugar, mostramos que los requisitos de datos y cómputo para alcanzar un determinado nivel de rendimiento se encuentran en una frontera de Pareto, controlada por la relación entre actualizaciones y datos (UTD). Al estimar esta frontera, podemos predecir el requisito de datos al disponer de más cómputo, y el requisito de cómputo al tener más datos. En segundo lugar, determinamos la asignación óptima de un presupuesto total de recursos entre datos y cómputo para un rendimiento dado, y lo utilizamos para determinar hiperparámetros que maximicen el rendimiento para un presupuesto determinado. En tercer lugar, este comportamiento de escalabilidad se logra al estimar previamente relaciones predecibles entre hiperparámetros, que se utilizan para gestionar los efectos de sobreajuste y la pérdida de plasticidad únicos en RL. Validamos nuestro enfoque utilizando tres algoritmos: SAC, BRO y PQL en DeepMind Control, OpenAI gym e IsaacGym, al extrapolar a niveles superiores de datos, cómputo, presupuesto o rendimiento.
English
Scaling data and compute is critical to the success of machine learning.
However, scaling demands predictability: we want methods to not only perform
well with more compute or data, but also have their performance be predictable
from small-scale runs, without running the large-scale experiment. In this
paper, we show that value-based off-policy RL methods are predictable despite
community lore regarding their pathological behavior. First, we show that data
and compute requirements to attain a given performance level lie on a Pareto
frontier, controlled by the updates-to-data (UTD) ratio. By estimating this
frontier, we can predict this data requirement when given more compute, and
this compute requirement when given more data. Second, we determine the optimal
allocation of a total resource budget across data and compute for a given
performance and use it to determine hyperparameters that maximize performance
for a given budget. Third, this scaling behavior is enabled by first estimating
predictable relationships between hyperparameters, which is used to manage
effects of overfitting and plasticity loss unique to RL. We validate our
approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI
gym, and IsaacGym, when extrapolating to higher levels of data, compute,
budget, or performance.Summary
AI-Generated Summary