Контрастное управление на основе примеров
Contrastive Example-Based Control
July 24, 2023
Авторы: Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn
cs.AI
Аннотация
Хотя многие реальные задачи могли бы выиграть от применения обучения с подкреплением, они редко укладываются в рамки марковских процессов принятия решений (MDP): взаимодействие со средой часто оказывается дорогостоящим, а определение функций вознаграждения — сложным. Вдохновленные этими вызовами, предыдущие работы разработали подходы, основанные на данных, которые обучаются исключительно на выборках из динамики переходов и примерах состояний с высокой отдачей. Эти методы обычно обучают функцию вознаграждения на основе состояний с высокой отдачей, используют эту функцию для маркировки переходов, а затем применяют алгоритм оффлайн-обучения с подкреплением к этим переходам. Хотя такие методы могут демонстрировать хорошие результаты на многих задачах, они могут быть сложными, часто требуя регуляризации и обновлений на основе временных разностей. В данной статье мы предлагаем метод оффлайн-управления на основе примеров, который обучает неявную модель многошаговых переходов вместо функции вознаграждения. Мы показываем, что эта неявная модель может представлять Q-значения для задачи управления на основе примеров. На ряде задач оффлайн-управления, основанных на состояниях и изображениях, наш метод превосходит базовые подходы, использующие обученные функции вознаграждения; дополнительные эксперименты демонстрируют улучшенную устойчивость и масштабируемость с увеличением размера набора данных.
English
While many real-world problems that might benefit from reinforcement
learning, these problems rarely fit into the MDP mold: interacting with the
environment is often expensive and specifying reward functions is challenging.
Motivated by these challenges, prior work has developed data-driven approaches
that learn entirely from samples from the transition dynamics and examples of
high-return states. These methods typically learn a reward function from
high-return states, use that reward function to label the transitions, and then
apply an offline RL algorithm to these transitions. While these methods can
achieve good results on many tasks, they can be complex, often requiring
regularization and temporal difference updates. In this paper, we propose a
method for offline, example-based control that learns an implicit model of
multi-step transitions, rather than a reward function. We show that this
implicit model can represent the Q-values for the example-based control
problem. Across a range of state-based and image-based offline control tasks,
our method outperforms baselines that use learned reward functions; additional
experiments demonstrate improved robustness and scaling with dataset size.