Contrôle de Corps Rigides Dirigés par des Fluides dans le Monde Réel via l'Apprentissage par Renforcement Profond
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning
February 8, 2024
Auteurs: Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli
cs.AI
Résumé
Les récents progrès dans les applications pratiques de l'apprentissage par renforcement (RL) reposent sur la capacité à simuler avec précision des systèmes à grande échelle. Cependant, des domaines tels que les systèmes de dynamique des fluides présentent des phénomènes dynamiques complexes difficiles à simuler à des taux d'intégration élevés, limitant ainsi l'application directe des algorithmes modernes de RL profond à du matériel souvent coûteux ou critique pour la sécurité. Dans ce travail, nous présentons "Box o Flows", un nouveau système expérimental de contrôle de laboratoire pour évaluer systématiquement les algorithmes de RL dans des scénarios dynamiques réels. Nous décrivons les composants clés de Box o Flows et, à travers une série d'expériences, démontrons comment les algorithmes de RL sans modèle de pointe peuvent synthétiser une variété de comportements complexes via des spécifications de récompense simples. De plus, nous explorons le rôle du RL hors ligne dans les tests d'hypothèses économes en données en réutilisant des expériences passées. Nous pensons que les insights tirés de cette étude préliminaire et la disponibilité de systèmes comme Box o Flows soutiennent la voie à suivre pour développer des algorithmes de RL systématiques pouvant être appliqués de manière générale à des systèmes dynamiques complexes. Le matériel supplémentaire et les vidéos des expériences sont disponibles à l'adresse https://sites.google.com/view/box-o-flows/home.
English
Recent advances in real-world applications of reinforcement learning (RL)
have relied on the ability to accurately simulate systems at scale. However,
domains such as fluid dynamical systems exhibit complex dynamic phenomena that
are hard to simulate at high integration rates, limiting the direct application
of modern deep RL algorithms to often expensive or safety critical hardware. In
this work, we introduce "Box o Flows", a novel benchtop experimental control
system for systematically evaluating RL algorithms in dynamic real-world
scenarios. We describe the key components of the Box o Flows, and through a
series of experiments demonstrate how state-of-the-art model-free RL algorithms
can synthesize a variety of complex behaviors via simple reward specifications.
Furthermore, we explore the role of offline RL in data-efficient hypothesis
testing by reusing past experiences. We believe that the insights gained from
this preliminary study and the availability of systems like the Box o Flows
support the way forward for developing systematic RL algorithms that can be
generally applied to complex, dynamical systems. Supplementary material and
videos of experiments are available at
https://sites.google.com/view/box-o-flows/home.