ChatPaper.aiChatPaper

Aprendizado Profundo Baseado em Valor Escala de Forma Previsível

Value-Based Deep RL Scales Predictably

February 6, 2025
Autores: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI

Resumo

Escalonar dados e computação é fundamental para o sucesso do aprendizado de máquina. No entanto, o escalonamento exige previsibilidade: desejamos que os métodos não apenas tenham bom desempenho com mais computação ou dados, mas também que seu desempenho seja previsível a partir de execuções em pequena escala, sem a necessidade de realizar o experimento em larga escala. Neste artigo, demonstramos que os métodos de RL off-policy baseados em valores são previsíveis, apesar das crenças da comunidade sobre seu comportamento patológico. Primeiramente, mostramos que os requisitos de dados e computação para atingir um determinado nível de desempenho estão em uma fronteira de Pareto, controlada pela razão de atualizações para dados (UTD). Ao estimar essa fronteira, podemos prever o requisito de dados ao receber mais computação, e o requisito de computação ao receber mais dados. Em segundo lugar, determinamos a alocação ótima de um orçamento total de recursos entre dados e computação para um determinado desempenho e o utilizamos para determinar hiperparâmetros que maximizem o desempenho para um determinado orçamento. Em terceiro lugar, esse comportamento de escalonamento é viabilizado pela primeira estimativa de relações previsíveis entre hiperparâmetros, que é utilizada para gerenciar os efeitos de overfitting e perda de plasticidade únicos ao RL. Validamos nossa abordagem utilizando três algoritmos: SAC, BRO e PQL no DeepMind Control, OpenAI gym e IsaacGym, ao extrapolar para níveis mais altos de dados, computação, orçamento ou desempenho.
English
Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.

Summary

AI-Generated Summary

PDF65February 10, 2025