Использование навыков на основе неразмеченных предварительных данных для эффективного онлайн-исследования
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration
October 23, 2024
Авторы: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI
Аннотация
Неспервизированное предварительное обучение претерпело значительные изменения во многих областях с учителем. Однако применение подобных идей к обучению с подкреплением (RL) представляет собой уникальное испытание в том смысле, что донастройка не включает в себя имитацию специфических для задачи данных, а скорее исследование и нахождение решения через итеративное самосовершенствование. В данной работе мы изучаем, как неразмеченные предварительные траекторные данные могут быть использованы для изучения эффективных стратегий исследования. Хотя предварительные данные могут быть использованы для предварительного обучения набора низкоуровневых навыков или как дополнительные внеочередные данные для онлайн RL, неясно, как эффективно объединить эти идеи для онлайн исследования. Наш метод SUPE (Навыки из неразмеченных предварительных данных для исследования) показывает, что тщательное сочетание этих идей усиливает их преимущества. Наш метод сначала извлекает низкоуровневые навыки с использованием вариационного автокодировщика (VAE), а затем псевдо-переобозначает неразмеченные траектории с использованием оптимистической модели вознаграждения, преобразуя предварительные данные в высокоуровневые, задаче-соответствующие примеры. Наконец, SUPE использует эти преобразованные примеры как дополнительные внеочередные данные для онлайн RL для изучения высокоуровневой стратегии, которая составляет предварительно обученные низкоуровневые навыки для эффективного исследования. Мы эмпирически показываем, что SUPE надежно превосходит предыдущие стратегии, успешно решая ряд задач с длинным горизонтом и разреженными вознаграждениями. Код: https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains.
However, applying such ideas to reinforcement learning (RL) presents a unique
challenge in that fine-tuning does not involve mimicking task-specific data,
but rather exploring and locating the solution through iterative
self-improvement. In this work, we study how unlabeled prior trajectory data
can be leveraged to learn efficient exploration strategies. While prior data
can be used to pretrain a set of low-level skills, or as additional off-policy
data for online RL, it has been unclear how to combine these ideas effectively
for online exploration. Our method SUPE (Skills from Unlabeled Prior data for
Exploration) demonstrates that a careful combination of these ideas compounds
their benefits. Our method first extracts low-level skills using a variational
autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an
optimistic reward model, transforming prior data into high-level, task-relevant
examples. Finally, SUPE uses these transformed examples as additional
off-policy data for online RL to learn a high-level policy that composes
pretrained low-level skills to explore efficiently. We empirically show that
SUPE reliably outperforms prior strategies, successfully solving a suite of
long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.Summary
AI-Generated Summary