ChatPaper.aiChatPaper

D5RL: Vielfältige Datensätze für datengesteuertes Deep Reinforcement Learning

D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

August 15, 2024
Autoren: Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine
cs.AI

Zusammenfassung

Offline-Verstärkungslernalgorithmen versprechen, datengesteuerte RL-Methoden zu ermöglichen, die keine kostspielige oder gefährliche Erkundung in der realen Welt erfordern und von großen vorausgesammelten Datensätzen profitieren. Dies kann wiederum reale Anwendungen erleichtern sowie einen standardisierteren Ansatz für die RL-Forschung ermöglichen. Darüber hinaus können Offline-RL-Methoden effektive Initialisierungen für die Online-Feinabstimmung bereitstellen, um Herausforderungen bei der Erkundung zu überwinden. Die Bewertung des Fortschritts bei Offline-RL-Algorithmen erfordert jedoch effektive und anspruchsvolle Benchmarks, die Eigenschaften von realen Aufgaben erfassen, eine Vielzahl von Aufgabenschwierigkeiten bieten und eine Reihe von Herausforderungen sowohl in Bezug auf die Parameter des Bereichs (z. B. Länge des Horizonts, Spärlichkeit der Belohnungen) als auch in Bezug auf die Parameter der Daten (z. B. schmale Demonstrationsdaten oder breite explorative Daten) abdecken. Während in den letzten Jahren erhebliche Fortschritte bei Offline-RL durch einfachere Benchmark-Aufgaben ermöglicht wurden, sind die am weitesten verbreiteten Datensätze zunehmend in der Leistung gesättigt und können Eigenschaften realistischer Aufgaben möglicherweise nicht widerspiegeln. Wir schlagen einen neuen Benchmark für Offline-RL vor, der sich auf realistische Simulationen von robotischer Manipulation und Fortbewegungsumgebungen konzentriert, basierend auf Modellen realer robotischer Systeme und eine Vielzahl von Datenquellen umfasst, einschließlich skriptbasierter Daten, spielbasierter Daten, die von menschlichen Fernbedienern gesammelt wurden, und anderen Datenquellen. Unser vorgeschlagener Benchmark umfasst zustandsbasierte und bildbasierte Bereiche und unterstützt sowohl die Bewertung von Offline-RL als auch die Online-Feinabstimmung, wobei einige Aufgaben speziell darauf ausgelegt sind, sowohl Vorabtraining als auch Feinabstimmung zu erfordern. Wir hoffen, dass unser vorgeschlagener Benchmark den Fortschritt sowohl bei Offline-RL als auch bei Feinabstimmungsalgorithmen weiter vorantreiben wird. Die Website mit Code, Beispielen, Aufgaben und Daten ist unter https://sites.google.com/view/d5rl/ verfügbar.
English
Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at https://sites.google.com/view/d5rl/

Summary

AI-Generated Summary

PDF82November 26, 2024