ChatPaper.aiChatPaper

Глубокое обучение с подкреплением на основе ценности масштабируется предсказуемо.

Value-Based Deep RL Scales Predictably

February 6, 2025
Авторы: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
cs.AI

Аннотация

Масштабирование данных и вычислений критично для успеха машинного обучения. Однако масштабирование требует предсказуемости: мы хотим, чтобы методы не только хорошо работали с большим объемом вычислений или данных, но и чтобы их производительность была предсказуемой на основе запусков малого масштаба, без проведения экспериментов большого масштаба. В этой статье мы показываем, что методы обучения с подкреплением на основе оценки ценности предсказуемы, несмотря на сообщественные предания о их патологическом поведении. Во-первых, мы показываем, что требования к данным и вычислениям для достижения определенного уровня производительности находятся на фронтире Парето, контролируемом соотношением обновлений к данным (UTD). Оценивая этот фронт, мы можем предсказать требования к данным при увеличении вычислительных ресурсов и требования к вычислениям при увеличении объема данных. Во-вторых, мы определяем оптимальное распределение общего бюджета ресурсов между данными и вычислениями для заданной производительности и используем его для определения гиперпараметров, максимизирующих производительность при заданном бюджете. В-третьих, это поведение масштабирования обеспечивается первоначальной оценкой предсказуемых взаимосвязей между гиперпараметрами, которая используется для управления эффектами переобучения и потери пластичности, уникальных для обучения с подкреплением. Мы проверяем наш подход, используя три алгоритма: SAC, BRO и PQL на платформах DeepMind Control, OpenAI gym и IsaacGym, при экстраполяции к более высоким уровням данных, вычислений, бюджета или производительности.
English
Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.

Summary

AI-Generated Summary

PDF65February 10, 2025