Управление движением твердого тела в реальных условиях с учетом воздействия жидкостей с использованием глубокого обучения с подкреплением
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning
February 8, 2024
Авторы: Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli
cs.AI
Аннотация
Недавние успехи в практическом применении обучения с подкреплением (RL) основывались на возможности точного моделирования систем в больших масштабах. Однако в таких областях, как системы с динамикой жидкостей, наблюдаются сложные динамические явления, которые трудно моделировать с высокой частотой интегрирования, что ограничивает прямое применение современных алгоритмов глубокого RL к часто дорогостоящему или критически важному для безопасности оборудованию. В данной работе мы представляем "Box o Flows" — новую настольную экспериментальную систему управления для систематической оценки алгоритмов RL в динамических реальных сценариях. Мы описываем ключевые компоненты системы Box o Flows и в серии экспериментов демонстрируем, как современные алгоритмы RL без модели могут синтезировать разнообразные сложные поведения с помощью простых спецификаций вознаграждения. Кроме того, мы исследуем роль автономного RL в эффективном тестировании гипотез с использованием данных, повторно используя прошлый опыт. Мы считаем, что полученные в этом предварительном исследовании выводы и доступность систем, подобных Box o Flows, способствуют разработке систематических алгоритмов RL, которые могут быть широко применены к сложным динамическим системам. Дополнительные материалы и видео экспериментов доступны по адресу https://sites.google.com/view/box-o-flows/home.
English
Recent advances in real-world applications of reinforcement learning (RL)
have relied on the ability to accurately simulate systems at scale. However,
domains such as fluid dynamical systems exhibit complex dynamic phenomena that
are hard to simulate at high integration rates, limiting the direct application
of modern deep RL algorithms to often expensive or safety critical hardware. In
this work, we introduce "Box o Flows", a novel benchtop experimental control
system for systematically evaluating RL algorithms in dynamic real-world
scenarios. We describe the key components of the Box o Flows, and through a
series of experiments demonstrate how state-of-the-art model-free RL algorithms
can synthesize a variety of complex behaviors via simple reward specifications.
Furthermore, we explore the role of offline RL in data-efficient hypothesis
testing by reusing past experiences. We believe that the insights gained from
this preliminary study and the availability of systems like the Box o Flows
support the way forward for developing systematic RL algorithms that can be
generally applied to complex, dynamical systems. Supplementary material and
videos of experiments are available at
https://sites.google.com/view/box-o-flows/home.