ChatPaper.aiChatPaper

D5RL:データ駆動型深層強化学習のための多様なデータセット

D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

August 15, 2024
著者: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI

要旨

オフライン強化学習(Offline RL)アルゴリズムは、コストがかかるまたは危険を伴う現実世界での探索を必要とせず、事前に収集された大規模なデータセットを活用できるデータ駆動型のRL手法を実現する可能性を秘めています。これにより、現実世界での応用が促進されるだけでなく、RL研究の標準化が進むことが期待されます。さらに、オフラインRL手法は、オンラインでのファインチューニングのための効果的な初期化を提供し、探索に関する課題を克服するのに役立ちます。しかし、オフラインRLアルゴリズムの進捗を評価するためには、現実世界のタスクの特性を捉え、さまざまな難易度のタスクを提供し、ドメインのパラメータ(例:時間軸の長さ、報酬の希薄性)やデータのパラメータ(例:狭いデモンストレーションデータや広範な探索データ)に関する多様な課題をカバーする効果的で挑戦的なベンチマークが必要です。近年、より単純なベンチマークタスクによってオフラインRLの進展が大きく促進されてきましたが、最も広く使用されているデータセットは性能の飽和が進んでおり、現実的なタスクの特性を反映できていない可能性があります。私たちは、現実世界のロボットシステムをモデル化したロボット操作および移動環境のシミュレーションに焦点を当て、スクリプトデータ、人間のテレオペレーターによって収集されたプレイスタイルデータ、その他のデータソースを含む多様なデータソースを網羅した新しいオフラインRLベンチマークを提案します。提案するベンチマークは、状態ベースおよび画像ベースのドメインをカバーし、オフラインRLとオンラインファインチューニングの評価をサポートします。一部のタスクは、事前学習とファインチューニングの両方を必要とするように特別に設計されています。私たちの提案するベンチマークが、オフラインRLおよびファインチューニングアルゴリズムのさらなる進展に貢献することを願っています。コード、例、タスク、データを含むウェブサイトはhttps://sites.google.com/view/d5rl/で公開されています。
English
Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at https://sites.google.com/view/d5rl/

Summary

AI-Generated Summary

PDF82November 26, 2024