Использование навыков на основе неразмеченных предварительных данных для эффективного онлайн-исследования

Аннотация

Неспервизированное предварительное обучение претерпело значительные изменения во многих областях с учителем. Однако применение подобных идей к обучению с подкреплением (RL) представляет собой уникальное испытание в том смысле, что донастройка не включает в себя имитацию специфических для задачи данных, а скорее исследование и нахождение решения через итеративное самосовершенствование. В данной работе мы изучаем, как неразмеченные предварительные траекторные данные могут быть использованы для изучения эффективных стратегий исследования. Хотя предварительные данные могут быть использованы для предварительного обучения набора низкоуровневых навыков или как дополнительные внеочередные данные для онлайн RL, неясно, как эффективно объединить эти идеи для онлайн исследования. Наш метод SUPE (Навыки из неразмеченных предварительных данных для исследования) показывает, что тщательное сочетание этих идей усиливает их преимущества. Наш метод сначала извлекает низкоуровневые навыки с использованием вариационного автокодировщика (VAE), а затем псевдо-переобозначает неразмеченные траектории с использованием оптимистической модели вознаграждения, преобразуя предварительные данные в высокоуровневые, задаче-соответствующие примеры. Наконец, SUPE использует эти преобразованные примеры как дополнительные внеочередные данные для онлайн RL для изучения высокоуровневой стратегии, которая составляет предварительно обученные низкоуровневые навыки для эффективного исследования. Мы эмпирически показываем, что SUPE надежно превосходит предыдущие стратегии, успешно решая ряд задач с длинным горизонтом и разреженными вознаграждениями. Код: https://github.com/rail-berkeley/supe.

English

Unsupervised pretraining has been transformative in many supervised domains. However, applying such ideas to reinforcement learning (RL) presents a unique challenge in that fine-tuning does not involve mimicking task-specific data, but rather exploring and locating the solution through iterative self-improvement. In this work, we study how unlabeled prior trajectory data can be leveraged to learn efficient exploration strategies. While prior data can be used to pretrain a set of low-level skills, or as additional off-policy data for online RL, it has been unclear how to combine these ideas effectively for online exploration. Our method SUPE (Skills from Unlabeled Prior data for Exploration) demonstrates that a careful combination of these ideas compounds their benefits. Our method first extracts low-level skills using a variational autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an optimistic reward model, transforming prior data into high-level, task-relevant examples. Finally, SUPE uses these transformed examples as additional off-policy data for online RL to learn a high-level policy that composes pretrained low-level skills to explore efficiently. We empirically show that SUPE reliably outperforms prior strategies, successfully solving a suite of long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.

Использование навыков на основе неразмеченных предварительных данных для эффективного онлайн-исследования

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Аннотация

Support