Controllo di Corpi Rigidi Guidati da Fluidi nel Mondo Reale tramite Apprendimento per Rinforzo Profondo
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning
February 8, 2024
Autori: Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli
cs.AI
Abstract
I recenti progressi nelle applicazioni real-world dell'apprendimento per rinforzo (RL) si sono basati sulla capacità di simulare accuratamente sistemi su larga scala. Tuttavia, domini come i sistemi di dinamica dei fluidi presentano fenomeni dinamici complessi che sono difficili da simulare ad alti tassi di integrazione, limitando l'applicazione diretta dei moderni algoritmi di deep RL a hardware spesso costoso o critico per la sicurezza. In questo lavoro, introduciamo "Box o Flows", un innovativo sistema di controllo sperimentale da banco per valutare sistematicamente gli algoritmi di RL in scenari dinamici del mondo reale. Descriviamo i componenti chiave del Box o Flows e, attraverso una serie di esperimenti, dimostriamo come gli algoritmi di RL model-free all'avanguardia possano sintetizzare una varietà di comportamenti complessi tramite specifiche di ricompensa semplici. Inoltre, esploriamo il ruolo dell'RL offline nel testare ipotesi in modo efficiente dal punto di vista dei dati, riutilizzando esperienze passate. Crediamo che le intuizioni ottenute da questo studio preliminare e la disponibilità di sistemi come il Box o Flows supportino la strada verso lo sviluppo di algoritmi di RL sistematici che possano essere applicati in generale a sistemi complessi e dinamici. Materiale supplementare e video degli esperimenti sono disponibili all'indirizzo https://sites.google.com/view/box-o-flows/home.
English
Recent advances in real-world applications of reinforcement learning (RL)
have relied on the ability to accurately simulate systems at scale. However,
domains such as fluid dynamical systems exhibit complex dynamic phenomena that
are hard to simulate at high integration rates, limiting the direct application
of modern deep RL algorithms to often expensive or safety critical hardware. In
this work, we introduce "Box o Flows", a novel benchtop experimental control
system for systematically evaluating RL algorithms in dynamic real-world
scenarios. We describe the key components of the Box o Flows, and through a
series of experiments demonstrate how state-of-the-art model-free RL algorithms
can synthesize a variety of complex behaviors via simple reward specifications.
Furthermore, we explore the role of offline RL in data-efficient hypothesis
testing by reusing past experiences. We believe that the insights gained from
this preliminary study and the availability of systems like the Box o Flows
support the way forward for developing systematic RL algorithms that can be
generally applied to complex, dynamical systems. Supplementary material and
videos of experiments are available at
https://sites.google.com/view/box-o-flows/home.