ChatPaper.aiChatPaper

D5RL: Разнообразные наборы данных для глубокого обучения с подкреплением на основе данных

D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

August 15, 2024
Авторы: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI

Аннотация

Алгоритмы обучения с подкреплением в автономном режиме обещают обеспечить методы обучения с подкреплением, основанные на данных, которые не требуют дорогостоящего или опасного исследования в реальном мире и получают выгоду от больших заранее собранных наборов данных. Это, в свою очередь, может способствовать применению в реальном мире, а также более стандартизированному подходу к исследованиям в области обучения с подкреплением. Более того, методы обучения с подкреплением в автономном режиме могут обеспечить эффективные инициализации для онлайн-настройки с целью преодоления проблем с исследованием. Однако оценка прогресса в области алгоритмов обучения с подкреплением в автономном режиме требует эффективных и сложных бенчмарков, которые отражают свойства задач из реального мира, предоставляют разнообразие уровней сложности задач и охватывают ряд проблем как в параметрах области (например, длина горизонта, разреженность вознаграждений), так и в параметрах данных (например, узкие данные демонстраций или широкие исследовательские данные). Несмотря на значительный прогресс в обучении с подкреплением в автономном режиме в последние годы, обусловленный более простыми бенчмарками, наиболее широко используемые наборы данных все более насыщаются по производительности и могут не отражать свойства реалистичных задач. Мы предлагаем новый бенчмарк для обучения с подкреплением в автономном режиме, который сосредотачивается на реалистичных симуляциях сред для робототехнического управления и передвижения, основанных на моделях реальных робототехнических систем и включающих различные источники данных, включая сценарные данные, данные, собранные человеческими телеоператорами в режиме игры, и другие источники данных. Наш предложенный бенчмарк охватывает области на основе состояний и изображений и поддерживает как оценку обучения с подкреплением в автономном режиме, так и онлайн-настройку, причем некоторые задачи специально разработаны для требования как предварительного обучения, так и настройки. Мы надеемся, что наш предложенный бенчмарк способствует дальнейшему прогрессу как в обучении с подкреплением в автономном режиме, так и в алгоритмах настройки. Веб-сайт с кодом, примерами, задачами и данными доступен по адресу https://sites.google.com/view/d5rl/
English
Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at https://sites.google.com/view/d5rl/

Summary

AI-Generated Summary

PDF82November 26, 2024