Controle de Corpo Rígido Orientado por Fluido no Mundo Real via Aprendizado por Reforço Profundo
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning
February 8, 2024
Autores: Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli
cs.AI
Resumo
Os avanços recentes nas aplicações do mundo real do aprendizado por reforço (RL, do inglês *Reinforcement Learning*) têm dependido da capacidade de simular sistemas com precisão em grande escala. No entanto, domínios como os sistemas de dinâmica de fluidos exibem fenômenos dinâmicos complexos que são difíceis de simular em altas taxas de integração, limitando a aplicação direta de algoritmos modernos de RL profundo em hardware frequentemente caro ou crítico para a segurança. Neste trabalho, apresentamos o "Box o Flows", um novo sistema experimental de controle em bancada para avaliar sistematicamente algoritmos de RL em cenários dinâmicos do mundo real. Descrevemos os principais componentes do Box o Flows e, por meio de uma série de experimentos, demonstramos como algoritmos de RL *model-free* de última geração podem sintetizar uma variedade de comportamentos complexos por meio de especificações simples de recompensa. Além disso, exploramos o papel do RL offline em testes de hipóteses com eficiência de dados, reutilizando experiências passadas. Acreditamos que os insights obtidos neste estudo preliminar e a disponibilidade de sistemas como o Box o Flows apoiam o caminho para o desenvolvimento de algoritmos de RL sistemáticos que possam ser aplicados de forma geral a sistemas complexos e dinâmicos. Material suplementar e vídeos dos experimentos estão disponíveis em https://sites.google.com/view/box-o-flows/home.
English
Recent advances in real-world applications of reinforcement learning (RL)
have relied on the ability to accurately simulate systems at scale. However,
domains such as fluid dynamical systems exhibit complex dynamic phenomena that
are hard to simulate at high integration rates, limiting the direct application
of modern deep RL algorithms to often expensive or safety critical hardware. In
this work, we introduce "Box o Flows", a novel benchtop experimental control
system for systematically evaluating RL algorithms in dynamic real-world
scenarios. We describe the key components of the Box o Flows, and through a
series of experiments demonstrate how state-of-the-art model-free RL algorithms
can synthesize a variety of complex behaviors via simple reward specifications.
Furthermore, we explore the role of offline RL in data-efficient hypothesis
testing by reusing past experiences. We believe that the insights gained from
this preliminary study and the availability of systems like the Box o Flows
support the way forward for developing systematic RL algorithms that can be
generally applied to complex, dynamical systems. Supplementary material and
videos of experiments are available at
https://sites.google.com/view/box-o-flows/home.