El Aprendizaje Profundo Basado en el Valor Escala de forma Predecible

Resumen

Escalar datos y cómputo es fundamental para el éxito del aprendizaje automático. Sin embargo, la escalabilidad requiere previsibilidad: queremos que los métodos no solo funcionen bien con más cómputo o datos, sino que también tengan un rendimiento predecible a partir de ejecuciones a pequeña escala, sin necesidad de llevar a cabo el experimento a gran escala. En este artículo, demostramos que los métodos de RL basados en el valor y fuera de política son predecibles a pesar de las creencias comunes sobre su comportamiento patológico. En primer lugar, mostramos que los requisitos de datos y cómputo para alcanzar un determinado nivel de rendimiento se encuentran en una frontera de Pareto, controlada por la relación entre actualizaciones y datos (UTD). Al estimar esta frontera, podemos predecir el requisito de datos al disponer de más cómputo, y el requisito de cómputo al tener más datos. En segundo lugar, determinamos la asignación óptima de un presupuesto total de recursos entre datos y cómputo para un rendimiento dado, y lo utilizamos para determinar hiperparámetros que maximicen el rendimiento para un presupuesto determinado. En tercer lugar, este comportamiento de escalabilidad se logra al estimar previamente relaciones predecibles entre hiperparámetros, que se utilizan para gestionar los efectos de sobreajuste y la pérdida de plasticidad únicos en RL. Validamos nuestro enfoque utilizando tres algoritmos: SAC, BRO y PQL en DeepMind Control, OpenAI gym e IsaacGym, al extrapolar a niveles superiores de datos, cómputo, presupuesto o rendimiento.

English

Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.

El Aprendizaje Profundo Basado en el Valor Escala de forma Predecible

Value-Based Deep RL Scales Predictably

Resumen

Support