Echtzeit-Steuerung von starren Körpern in realen Flüssigkeiten durch Deep Reinforcement Learning
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning
February 8, 2024
Autoren: Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli
cs.AI
Zusammenfassung
Jüngste Fortschritte in realen Anwendungen des Reinforcement Learning (RL) basieren auf der Fähigkeit, Systeme in großem Maßstab präzise zu simulieren. Domänen wie fluiddynamische Systeme weisen jedoch komplexe dynamische Phänomene auf, die bei hohen Integrationsraten schwer zu simulieren sind, was die direkte Anwendung moderner Deep-RL-Algorithmen auf oft kostspielige oder sicherheitskritische Hardware einschränkt. In dieser Arbeit stellen wir "Box o Flows" vor, ein neuartiges experimentelles Steuerungssystem für die systematische Bewertung von RL-Algorithmen in dynamischen realen Szenarien. Wir beschreiben die Schlüsselkomponenten der Box o Flows und demonstrieren durch eine Reihe von Experimenten, wie state-of-the-art modellfreie RL-Algorithmen eine Vielzahl komplexer Verhaltensweisen über einfache Belohnungsspezifikationen synthetisieren können. Darüber hinaus untersuchen wir die Rolle des Offline-RL bei der dateneffizienten Hypothesentestung durch die Wiederverwendung vergangener Erfahrungen. Wir glauben, dass die Erkenntnisse aus dieser Vorstudie und die Verfügbarkeit von Systemen wie der Box o Flows den Weg für die Entwicklung systematischer RL-Algorithmen ebnen, die allgemein auf komplexe, dynamische Systeme angewendet werden können. Ergänzendes Material und Videos der Experimente sind verfügbar unter https://sites.google.com/view/box-o-flows/home.
English
Recent advances in real-world applications of reinforcement learning (RL)
have relied on the ability to accurately simulate systems at scale. However,
domains such as fluid dynamical systems exhibit complex dynamic phenomena that
are hard to simulate at high integration rates, limiting the direct application
of modern deep RL algorithms to often expensive or safety critical hardware. In
this work, we introduce "Box o Flows", a novel benchtop experimental control
system for systematically evaluating RL algorithms in dynamic real-world
scenarios. We describe the key components of the Box o Flows, and through a
series of experiments demonstrate how state-of-the-art model-free RL algorithms
can synthesize a variety of complex behaviors via simple reward specifications.
Furthermore, we explore the role of offline RL in data-efficient hypothesis
testing by reusing past experiences. We believe that the insights gained from
this preliminary study and the availability of systems like the Box o Flows
support the way forward for developing systematic RL algorithms that can be
generally applied to complex, dynamical systems. Supplementary material and
videos of experiments are available at
https://sites.google.com/view/box-o-flows/home.