現実世界の流体を考慮した剛体制御のための深層強化学習
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning
February 8, 2024
著者: Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli
cs.AI
要旨
現実世界における強化学習(RL)の最近の進展は、大規模なシステムを正確にシミュレートする能力に依存してきました。しかし、流体力学システムなどの領域では、高い積分レートでのシミュレーションが困難な複雑な動的現象が現れ、現代の深層RLアルゴリズムを直接的に高価または安全性が重要なハードウェアに適用することが制限されています。本研究では、動的な現実世界のシナリオでRLアルゴリズムを体系的に評価するための新しいベンチトップ実験制御システム「Box o Flows」を紹介します。Box o Flowsの主要な構成要素を説明し、一連の実験を通じて、最先端のモデルフリーRLアルゴリズムが単純な報酬指定を通じて多様な複雑な行動を合成できることを実証します。さらに、過去の経験を再利用することで、データ効率的な仮説検証におけるオフラインRLの役割を探ります。この予備研究から得られた知見と、Box o Flowsのようなシステムの利用可能性が、複雑な動的システムに一般的に適用できる体系的RLアルゴリズムの開発に向けた道を支持すると考えています。補足資料と実験の動画はhttps://sites.google.com/view/box-o-flows/homeで利用可能です。
English
Recent advances in real-world applications of reinforcement learning (RL)
have relied on the ability to accurately simulate systems at scale. However,
domains such as fluid dynamical systems exhibit complex dynamic phenomena that
are hard to simulate at high integration rates, limiting the direct application
of modern deep RL algorithms to often expensive or safety critical hardware. In
this work, we introduce "Box o Flows", a novel benchtop experimental control
system for systematically evaluating RL algorithms in dynamic real-world
scenarios. We describe the key components of the Box o Flows, and through a
series of experiments demonstrate how state-of-the-art model-free RL algorithms
can synthesize a variety of complex behaviors via simple reward specifications.
Furthermore, we explore the role of offline RL in data-efficient hypothesis
testing by reusing past experiences. We believe that the insights gained from
this preliminary study and the availability of systems like the Box o Flows
support the way forward for developing systematic RL algorithms that can be
generally applied to complex, dynamical systems. Supplementary material and
videos of experiments are available at
https://sites.google.com/view/box-o-flows/home.