D5RL: Dataset Diversi per l'Apprendimento per Rinforzo Profondo Basato sui Dati
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning
August 15, 2024
Autori: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI
Abstract
Gli algoritmi di apprendimento per rinforzo offline (offline reinforcement learning) promettono di abilitare metodi RL basati sui dati che non richiedono esplorazione nel mondo reale, costosa o pericolosa, e che beneficiano di grandi dataset pre-raccolti. Questo, a sua volta, può facilitare applicazioni nel mondo reale, nonché un approccio più standardizzato alla ricerca nel campo del RL. Inoltre, i metodi di RL offline possono fornire inizializzazioni efficaci per il fine-tuning online, superando le sfide legate all'esplorazione. Tuttavia, valutare i progressi negli algoritmi di RL offline richiede benchmark efficaci e stimolanti che catturino le proprietà dei compiti del mondo reale, offrano una gamma di difficoltà e coprano una varietà di sfide, sia in termini di parametri del dominio (ad esempio, lunghezza dell'orizzonte, sparsità delle ricompense) che di parametri dei dati (ad esempio, dati di dimostrazione ristretti o dati esplorativi ampi). Sebbene i progressi significativi nel RL offline degli ultimi anni siano stati resi possibili da compiti di benchmark più semplici, i dataset più utilizzati stanno raggiungendo una saturazione nelle prestazioni e potrebbero non riflettere le proprietà dei compiti realistici. Proponiamo un nuovo benchmark per il RL offline che si concentra su simulazioni realistiche di ambienti di manipolazione e locomozione robotica, basati su modelli di sistemi robotici del mondo reale, e comprendenti una varietà di fonti di dati, inclusi dati scripted, dati raccolti in stile "play" da operatori umani tramite teleoperazione e altre fonti. Il nostro benchmark proposto copre domini basati su stato e su immagini e supporta sia la valutazione del RL offline che il fine-tuning online, con alcuni compiti specificamente progettati per richiedere sia il pre-training che il fine-tuning. Speriamo che il nostro benchmark proposto possa facilitare ulteriori progressi sia negli algoritmi di RL offline che in quelli di fine-tuning. Il sito web con codice, esempi, compiti e dati è disponibile all'indirizzo https://sites.google.com/view/d5rl/.
English
Offline reinforcement learning algorithms hold the promise of enabling
data-driven RL methods that do not require costly or dangerous real-world
exploration and benefit from large pre-collected datasets. This in turn can
facilitate real-world applications, as well as a more standardized approach to
RL research. Furthermore, offline RL methods can provide effective
initializations for online finetuning to overcome challenges with exploration.
However, evaluating progress on offline RL algorithms requires effective and
challenging benchmarks that capture properties of real-world tasks, provide a
range of task difficulties, and cover a range of challenges both in terms of
the parameters of the domain (e.g., length of the horizon, sparsity of rewards)
and the parameters of the data (e.g., narrow demonstration data or broad
exploratory data). While considerable progress in offline RL in recent years
has been enabled by simpler benchmark tasks, the most widely used datasets are
increasingly saturating in performance and may fail to reflect properties of
realistic tasks. We propose a new benchmark for offline RL that focuses on
realistic simulations of robotic manipulation and locomotion environments,
based on models of real-world robotic systems, and comprising a variety of data
sources, including scripted data, play-style data collected by human
teleoperators, and other data sources. Our proposed benchmark covers
state-based and image-based domains, and supports both offline RL and online
fine-tuning evaluation, with some of the tasks specifically designed to require
both pre-training and fine-tuning. We hope that our proposed benchmark will
facilitate further progress on both offline RL and fine-tuning algorithms.
Website with code, examples, tasks, and data is available at
https://sites.google.com/view/d5rl/