Несмещённые модельные представления для эффективного по выборке непрерывного управления

Аннотация

Модельные представления в последнее время выделяются как перспективная парадигма, встраивающая информацию о скрытой динамике в представления для последующего обучения актора-критика вне политики. Такой подход неявно объединяет преимущества как методов без модели, так и методов на основе модели, избегая при этом вычислительных затрат, связанных с модельными подходами. Тем не менее, существующие методы построения модельных представлений могут не захватывать достаточный объем информации о релевантных переменных и переобучаться на раннем опыте в буфере воспроизведения. Это приводит к смещениям в обучении представлений и актора-критика, что ухудшает производительность. Для решения этой проблемы мы предлагаем алгоритм DR.Q (Debiased model-based Representations for Q-learning). DR.Q явным образом максимизирует взаимную информацию между представлениями текущей пары состояние-действие и следующего состояния, одновременно минимизируя их отклонения, а также осуществляет выборку переходов с затухающим приоритетным воспроизведением опыта. Мы оцениваем DR.Q на многочисленных эталонных задачах непрерывного управления с единым набором гиперпараметров. Результаты показывают, что DR.Q способен сравниться с последними сильными базовыми алгоритмами или превзойти их, иногда с большим отрывом. Наш код доступен по адресу https://github.com/dmksjfl/DR.Q.

English

Model-based representations recently stand out as a promising framework that embeds latent dynamics information into the representations for downstream off-policy actor-critic learning. It implicitly combines the advantages of both model-free and model-based approaches while avoiding the training costs associated with model-based methods. Nevertheless, existing model-based representation methods can fail to capture sufficient information about relevant variables and can overfit to early experiences in the replay buffer. These incur biases in representation and actor-critic learning, leading to inferior performance. To address this, we propose Debiased model-based Representations for Q-learning, tagged DR.Q algorithm. DR.Q explicitly maximizes the mutual information between the representations of the current state-action pair and the next state besides minimizing their deviations, and samples transitions with faded prioritized experience replay. We evaluate DR.Q on numerous continuous control benchmarks with a single set of hyperparameters, and the results demonstrate that DR.Q can match or surpass recent strong baselines, sometimes outperforming them by a large margin. Our code is available at https://github.com/dmksjfl/DR.Q.

Несмещённые модельные представления для эффективного по выборке непрерывного управления

Debiased Model-based Representations for Sample-efficient Continuous Control

Аннотация

Support