ChatPaper.aiChatPaper

Aprovechando habilidades de datos previos no etiquetados para una exploración en línea eficiente.

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

October 23, 2024
Autores: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI

Resumen

El preentrenamiento no supervisado ha sido transformador en muchos dominios supervisados. Sin embargo, aplicar tales ideas al aprendizaje por refuerzo (RL) presenta un desafío único en el sentido de que el ajuste fino no implica imitar datos específicos de la tarea, sino explorar y localizar la solución a través de la auto-mejora iterativa. En este trabajo, estudiamos cómo los datos de trayectorias previas no etiquetados pueden ser aprovechados para aprender estrategias de exploración eficientes. Mientras que los datos previos pueden ser utilizados para preentrenar un conjunto de habilidades de bajo nivel, o como datos adicionales fuera de política para RL en línea, ha sido poco claro cómo combinar estas ideas de manera efectiva para la exploración en línea. Nuestro método SUPE (Habilidades de Datos Previos no Etiquetados para Exploración) demuestra que una combinación cuidadosa de estas ideas potencia sus beneficios. Nuestro método primero extrae habilidades de bajo nivel utilizando un auto-codificador variacional (VAE), y luego pseudo-etiqueta trayectorias no etiquetadas utilizando un modelo de recompensa optimista, transformando los datos previos en ejemplos de alto nivel relevantes para la tarea. Finalmente, SUPE utiliza estos ejemplos transformados como datos adicionales fuera de política para RL en línea para aprender una política de alto nivel que compone habilidades de bajo nivel preentrenadas para explorar eficientemente. Demostramos empíricamente que SUPE supera de manera confiable las estrategias previas, resolviendo con éxito una serie de tareas de recompensa escasa a largo plazo. Código: https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains. However, applying such ideas to reinforcement learning (RL) presents a unique challenge in that fine-tuning does not involve mimicking task-specific data, but rather exploring and locating the solution through iterative self-improvement. In this work, we study how unlabeled prior trajectory data can be leveraged to learn efficient exploration strategies. While prior data can be used to pretrain a set of low-level skills, or as additional off-policy data for online RL, it has been unclear how to combine these ideas effectively for online exploration. Our method SUPE (Skills from Unlabeled Prior data for Exploration) demonstrates that a careful combination of these ideas compounds their benefits. Our method first extracts low-level skills using a variational autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an optimistic reward model, transforming prior data into high-level, task-relevant examples. Finally, SUPE uses these transformed examples as additional off-policy data for online RL to learn a high-level policy that composes pretrained low-level skills to explore efficiently. We empirically show that SUPE reliably outperforms prior strategies, successfully solving a suite of long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.

Summary

AI-Generated Summary

PDF42November 16, 2024