Aproveitando Habilidades de Dados Anteriores Não Rotulados para Exploração Online Eficiente
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration
October 23, 2024
Autores: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI
Resumo
O pré-treinamento não supervisionado tem sido transformador em muitos domínios supervisionados. No entanto, aplicar tais ideias ao aprendizado por reforço (RL) apresenta um desafio único, uma vez que o ajuste fino não envolve a imitação de dados específicos da tarefa, mas sim explorar e localizar a solução por meio de auto aprimoramento iterativo. Neste trabalho, estudamos como dados de trajetória prévia não rotulados podem ser aproveitados para aprender estratégias de exploração eficientes. Enquanto dados prévios podem ser usados para pré-treinar um conjunto de habilidades de baixo nível, ou como dados off-policy adicionais para RL online, tem sido incerto como combinar essas ideias de forma eficaz para exploração online. Nosso método SUPE (Habilidades a partir de Dados Prévios Não Rotulados para Exploração) demonstra que uma combinação cuidadosa dessas ideias potencializa seus benefícios. Nosso método primeiro extrai habilidades de baixo nível usando um autoencoder variacional (VAE), e então pseudo-rotula trajetórias não rotuladas usando um modelo de recompensa otimista, transformando dados prévios em exemplos de alto nível relevantes para a tarefa. Por fim, o SUPE utiliza esses exemplos transformados como dados off-policy adicionais para RL online a fim de aprender uma política de alto nível que compõe habilidades de baixo nível pré-treinadas para explorar de forma eficiente. Demonstramos empiricamente que o SUPE supera consistentemente estratégias anteriores, resolvendo com sucesso uma série de tarefas de longo horizonte e recompensa esparsa. Código: https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains.
However, applying such ideas to reinforcement learning (RL) presents a unique
challenge in that fine-tuning does not involve mimicking task-specific data,
but rather exploring and locating the solution through iterative
self-improvement. In this work, we study how unlabeled prior trajectory data
can be leveraged to learn efficient exploration strategies. While prior data
can be used to pretrain a set of low-level skills, or as additional off-policy
data for online RL, it has been unclear how to combine these ideas effectively
for online exploration. Our method SUPE (Skills from Unlabeled Prior data for
Exploration) demonstrates that a careful combination of these ideas compounds
their benefits. Our method first extracts low-level skills using a variational
autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an
optimistic reward model, transforming prior data into high-level, task-relevant
examples. Finally, SUPE uses these transformed examples as additional
off-policy data for online RL to learn a high-level policy that composes
pretrained low-level skills to explore efficiently. We empirically show that
SUPE reliably outperforms prior strategies, successfully solving a suite of
long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.Summary
AI-Generated Summary