D5RL: Conjuntos de Dados Diversificados para Aprendizado Profundo por Reforço Baseado em Dados
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning
August 15, 2024
Autores: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI
Resumo
Algoritmos de aprendizado por reforço offline têm o potencial de possibilitar métodos de AR baseados em dados que não exigem exploração dispendiosa ou perigosa no mundo real e se beneficiam de grandes conjuntos de dados pré-coletados. Isso, por sua vez, pode facilitar aplicações no mundo real, bem como uma abordagem mais padronizada para a pesquisa em AR. Além disso, métodos de AR offline podem fornecer inicializações eficazes para ajustes finos online para superar desafios com a exploração. No entanto, avaliar o progresso em algoritmos de AR offline requer benchmarks eficazes e desafiadores que capturem propriedades de tarefas do mundo real, forneçam uma variedade de dificuldades de tarefas e cubram uma variedade de desafios tanto em termos dos parâmetros do domínio (por exemplo, duração do horizonte, esparsidade de recompensas) quanto dos parâmetros dos dados (por exemplo, dados de demonstração restritos ou dados exploratórios amplos). Embora tenha havido progresso considerável em AR offline nos últimos anos com benchmarks mais simples, os conjuntos de dados mais amplamente utilizados estão cada vez mais saturados em desempenho e podem falhar em refletir propriedades de tarefas realistas. Propomos um novo benchmark para AR offline que se concentra em simulações realistas de ambientes de manipulação e locomoção robótica, com base em modelos de sistemas robóticos do mundo real e abrangendo uma variedade de fontes de dados, incluindo dados programados, dados de estilo de jogo coletados por teleoperadores humanos e outras fontes de dados. Nosso benchmark proposto abrange domínios baseados em estado e baseados em imagem, e suporta tanto a avaliação de AR offline quanto de ajuste fino online, com algumas tarefas especificamente projetadas para exigir tanto pré-treinamento quanto ajuste fino. Esperamos que nosso benchmark proposto facilite mais progressos tanto em algoritmos de AR offline quanto de ajuste fino. O site com código, exemplos, tarefas e dados está disponível em https://sites.google.com/view/d5rl/
English
Offline reinforcement learning algorithms hold the promise of enabling
data-driven RL methods that do not require costly or dangerous real-world
exploration and benefit from large pre-collected datasets. This in turn can
facilitate real-world applications, as well as a more standardized approach to
RL research. Furthermore, offline RL methods can provide effective
initializations for online finetuning to overcome challenges with exploration.
However, evaluating progress on offline RL algorithms requires effective and
challenging benchmarks that capture properties of real-world tasks, provide a
range of task difficulties, and cover a range of challenges both in terms of
the parameters of the domain (e.g., length of the horizon, sparsity of rewards)
and the parameters of the data (e.g., narrow demonstration data or broad
exploratory data). While considerable progress in offline RL in recent years
has been enabled by simpler benchmark tasks, the most widely used datasets are
increasingly saturating in performance and may fail to reflect properties of
realistic tasks. We propose a new benchmark for offline RL that focuses on
realistic simulations of robotic manipulation and locomotion environments,
based on models of real-world robotic systems, and comprising a variety of data
sources, including scripted data, play-style data collected by human
teleoperators, and other data sources. Our proposed benchmark covers
state-based and image-based domains, and supports both offline RL and online
fine-tuning evaluation, with some of the tasks specifically designed to require
both pre-training and fine-tuning. We hope that our proposed benchmark will
facilitate further progress on both offline RL and fine-tuning algorithms.
Website with code, examples, tasks, and data is available at
https://sites.google.com/view/d5rl/Summary
AI-Generated Summary