D5RL : Ensembles de données diversifiés pour l'apprentissage par renforcement profond basé sur les données
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning
August 15, 2024
papers.authors: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI
papers.abstract
Les algorithmes d'apprentissage par renforcement hors ligne (offline RL) offrent la promesse de méthodes RL pilotées par les données qui ne nécessitent pas d'exploration coûteuse ou dangereuse dans le monde réel et qui bénéficient de grands ensembles de données pré-collectées. Cela peut à son tour faciliter les applications dans le monde réel, ainsi qu'une approche plus standardisée de la recherche en RL. De plus, les méthodes de RL hors ligne peuvent fournir des initialisations efficaces pour un affinage en ligne (online fine-tuning) afin de surmonter les défis liés à l'exploration. Cependant, évaluer les progrès des algorithmes de RL hors ligne nécessite des benchmarks efficaces et stimulants qui capturent les propriétés des tâches du monde réel, offrent une gamme de difficultés de tâches, et couvrent une variété de défis tant en termes de paramètres du domaine (par exemple, la longueur de l'horizon, la rareté des récompenses) que des paramètres des données (par exemple, des données de démonstration étroites ou des données d'exploration larges). Bien que des progrès considérables en RL hors ligne ces dernières années aient été permis par des tâches de benchmark plus simples, les ensembles de données les plus utilisés atteignent de plus en plus un plafond de performance et peuvent ne pas refléter les propriétés des tâches réalistes. Nous proposons un nouveau benchmark pour le RL hors ligne qui se concentre sur des simulations réalistes d'environnements de manipulation et de locomotion robotiques, basées sur des modèles de systèmes robotiques du monde réel, et comprenant une variété de sources de données, y compris des données scriptées, des données de style "play" collectées par des téléopérateurs humains, et d'autres sources de données. Notre benchmark proposé couvre des domaines basés sur l'état et sur l'image, et supporte à la fois l'évaluation du RL hors ligne et de l'affinage en ligne, certaines tâches étant spécifiquement conçues pour nécessiter à la fois un pré-entraînement et un affinage. Nous espérons que notre benchmark proposé facilitera de nouveaux progrès à la fois sur les algorithmes de RL hors ligne et d'affinage. Un site web avec le code, des exemples, des tâches et des données est disponible à l'adresse suivante : https://sites.google.com/view/d5rl/
English
Offline reinforcement learning algorithms hold the promise of enabling
data-driven RL methods that do not require costly or dangerous real-world
exploration and benefit from large pre-collected datasets. This in turn can
facilitate real-world applications, as well as a more standardized approach to
RL research. Furthermore, offline RL methods can provide effective
initializations for online finetuning to overcome challenges with exploration.
However, evaluating progress on offline RL algorithms requires effective and
challenging benchmarks that capture properties of real-world tasks, provide a
range of task difficulties, and cover a range of challenges both in terms of
the parameters of the domain (e.g., length of the horizon, sparsity of rewards)
and the parameters of the data (e.g., narrow demonstration data or broad
exploratory data). While considerable progress in offline RL in recent years
has been enabled by simpler benchmark tasks, the most widely used datasets are
increasingly saturating in performance and may fail to reflect properties of
realistic tasks. We propose a new benchmark for offline RL that focuses on
realistic simulations of robotic manipulation and locomotion environments,
based on models of real-world robotic systems, and comprising a variety of data
sources, including scripted data, play-style data collected by human
teleoperators, and other data sources. Our proposed benchmark covers
state-based and image-based domains, and supports both offline RL and online
fine-tuning evaluation, with some of the tasks specifically designed to require
both pre-training and fine-tuning. We hope that our proposed benchmark will
facilitate further progress on both offline RL and fine-tuning algorithms.
Website with code, examples, tasks, and data is available at
https://sites.google.com/view/d5rl/