Aprendizado Profundo Baseado em Valor Escala de Forma Previsível
Value-Based Deep RL Scales Predictably
February 6, 2025
Autores: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI
Resumo
Escalonar dados e computação é fundamental para o sucesso do aprendizado de máquina. No entanto, o escalonamento exige previsibilidade: desejamos que os métodos não apenas tenham bom desempenho com mais computação ou dados, mas também que seu desempenho seja previsível a partir de execuções em pequena escala, sem a necessidade de realizar o experimento em larga escala. Neste artigo, demonstramos que os métodos de RL off-policy baseados em valores são previsíveis, apesar das crenças da comunidade sobre seu comportamento patológico. Primeiramente, mostramos que os requisitos de dados e computação para atingir um determinado nível de desempenho estão em uma fronteira de Pareto, controlada pela razão de atualizações para dados (UTD). Ao estimar essa fronteira, podemos prever o requisito de dados ao receber mais computação, e o requisito de computação ao receber mais dados. Em segundo lugar, determinamos a alocação ótima de um orçamento total de recursos entre dados e computação para um determinado desempenho e o utilizamos para determinar hiperparâmetros que maximizem o desempenho para um determinado orçamento. Em terceiro lugar, esse comportamento de escalonamento é viabilizado pela primeira estimativa de relações previsíveis entre hiperparâmetros, que é utilizada para gerenciar os efeitos de overfitting e perda de plasticidade únicos ao RL. Validamos nossa abordagem utilizando três algoritmos: SAC, BRO e PQL no DeepMind Control, OpenAI gym e IsaacGym, ao extrapolar para níveis mais altos de dados, computação, orçamento ou desempenho.
English
Scaling data and compute is critical to the success of machine learning.
However, scaling demands predictability: we want methods to not only perform
well with more compute or data, but also have their performance be predictable
from small-scale runs, without running the large-scale experiment. In this
paper, we show that value-based off-policy RL methods are predictable despite
community lore regarding their pathological behavior. First, we show that data
and compute requirements to attain a given performance level lie on a Pareto
frontier, controlled by the updates-to-data (UTD) ratio. By estimating this
frontier, we can predict this data requirement when given more compute, and
this compute requirement when given more data. Second, we determine the optimal
allocation of a total resource budget across data and compute for a given
performance and use it to determine hyperparameters that maximize performance
for a given budget. Third, this scaling behavior is enabled by first estimating
predictable relationships between hyperparameters, which is used to manage
effects of overfitting and plasticity loss unique to RL. We validate our
approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI
gym, and IsaacGym, when extrapolating to higher levels of data, compute,
budget, or performance.Summary
AI-Generated Summary