ChatPaper.aiChatPaper

D5RL: Conjuntos de datos diversos para el aprendizaje profundo basado en datos de refuerzo.

D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

August 15, 2024
Autores: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI

Resumen

Los algoritmos de aprendizaje por refuerzo offline prometen habilitar métodos de RL basados en datos que no requieren exploración costosa o peligrosa en el mundo real y se benefician de grandes conjuntos de datos pre-recopilados. Esto, a su vez, puede facilitar aplicaciones en el mundo real, así como un enfoque más estandarizado para la investigación en RL. Además, los métodos de RL offline pueden proporcionar inicializaciones efectivas para el ajuste fino en línea para superar desafíos con la exploración. Sin embargo, evaluar el progreso en los algoritmos de RL offline requiere puntos de referencia efectivos y desafiantes que capturen propiedades de tareas del mundo real, proporcionen una variedad de dificultades en las tareas y abarquen una serie de desafíos tanto en términos de los parámetros del dominio (por ejemplo, longitud del horizonte, dispersión de recompensas) como en los parámetros de los datos (por ejemplo, datos de demostración limitados o datos exploratorios amplios). Aunque en los últimos años se ha logrado un progreso considerable en RL offline gracias a tareas de referencia más simples, los conjuntos de datos más ampliamente utilizados están alcanzando un punto de saturación en rendimiento y pueden no reflejar las propiedades de tareas realistas. Proponemos un nuevo punto de referencia para RL offline que se centra en simulaciones realistas de entornos de manipulación y locomoción robótica, basados en modelos de sistemas robóticos del mundo real, y que abarca una variedad de fuentes de datos, incluidos datos escritos, datos de estilo de juego recopilados por teleoperadores humanos y otras fuentes de datos. Nuestro punto de referencia propuesto cubre dominios basados en estados e imágenes, y admite tanto la evaluación de RL offline como el ajuste fino en línea, con algunas tareas diseñadas específicamente para requerir tanto pre-entrenamiento como ajuste fino. Esperamos que nuestro punto de referencia propuesto facilite un mayor progreso tanto en los algoritmos de RL offline como en los de ajuste fino. El sitio web con código, ejemplos, tareas y datos está disponible en https://sites.google.com/view/d5rl/
English
Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at https://sites.google.com/view/d5rl/

Summary

AI-Generated Summary

PDF82November 26, 2024