D5RL: Diverse Datasets voor Data-Gedreven Diepe Reinforcement Learning
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning
August 15, 2024
Auteurs: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI
Samenvatting
Offline reinforcement learning-algoritmen beloven datagedreven RL-methoden mogelijk maken die geen kostbare of gevaarlijke verkenning in de echte wereld vereisen en profiteren van grote vooraf verzamelde datasets. Dit kan op zijn beurt toepassingen in de echte wereld vergemakkelijken, evenals een meer gestandaardiseerde aanpak van RL-onderzoek. Bovendien kunnen offline RL-methoden effectieve initialisaties bieden voor online finetuning om uitdagingen met exploratie te overwinnen. Echter, het evalueren van vooruitgang in offline RL-algoritmen vereist effectieve en uitdagende benchmarks die eigenschappen van taken uit de echte wereld vastleggen, een reeks taakmoeilijkheden bieden, en een reeks uitdagingen dekken, zowel wat betreft de parameters van het domein (bijv. de lengte van de horizon, de schaarste van beloningen) als de parameters van de data (bijv. smalle demonstratiedata of brede verkenningsdata). Hoewel aanzienlijke vooruitgang in offline RL de afgelopen jaren mogelijk is gemaakt door eenvoudigere benchmarktaken, raken de meest gebruikte datasets steeds meer verzadigd in prestaties en kunnen ze eigenschappen van realistische taken niet weerspiegelen. Wij stellen een nieuwe benchmark voor offline RL voor die zich richt op realistische simulaties van robotmanipulatie- en locomotie-omgevingen, gebaseerd op modellen van echte robotische systemen, en bestaande uit een verscheidenheid aan databronnen, waaronder gescripte data, spelstijl-data verzameld door menselijke teleoperators, en andere databronnen. Onze voorgestelde benchmark omvat state-based en image-based domeinen, en ondersteunt zowel offline RL- als online finetuning-evaluatie, waarbij sommige taken specifiek zijn ontworpen om zowel pre-training als finetuning te vereisen. Wij hopen dat onze voorgestelde benchmark verdere vooruitgang zal faciliteren op zowel offline RL- als finetuning-algoritmen. Een website met code, voorbeelden, taken en data is beschikbaar op https://sites.google.com/view/d5rl/.
English
Offline reinforcement learning algorithms hold the promise of enabling
data-driven RL methods that do not require costly or dangerous real-world
exploration and benefit from large pre-collected datasets. This in turn can
facilitate real-world applications, as well as a more standardized approach to
RL research. Furthermore, offline RL methods can provide effective
initializations for online finetuning to overcome challenges with exploration.
However, evaluating progress on offline RL algorithms requires effective and
challenging benchmarks that capture properties of real-world tasks, provide a
range of task difficulties, and cover a range of challenges both in terms of
the parameters of the domain (e.g., length of the horizon, sparsity of rewards)
and the parameters of the data (e.g., narrow demonstration data or broad
exploratory data). While considerable progress in offline RL in recent years
has been enabled by simpler benchmark tasks, the most widely used datasets are
increasingly saturating in performance and may fail to reflect properties of
realistic tasks. We propose a new benchmark for offline RL that focuses on
realistic simulations of robotic manipulation and locomotion environments,
based on models of real-world robotic systems, and comprising a variety of data
sources, including scripted data, play-style data collected by human
teleoperators, and other data sources. Our proposed benchmark covers
state-based and image-based domains, and supports both offline RL and online
fine-tuning evaluation, with some of the tasks specifically designed to require
both pre-training and fine-tuning. We hope that our proposed benchmark will
facilitate further progress on both offline RL and fine-tuning algorithms.
Website with code, examples, tasks, and data is available at
https://sites.google.com/view/d5rl/