Discrete-Time Hybride Automaten Leren: Bipedale Locomotie Ontmoet Skateboarden
Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding
March 3, 2025
Auteurs: Hang Liu, Sangli Teng, Ben Liu, Wei Zhang, Maani Ghaffari
cs.AI
Samenvatting
Dit artikel introduceert Discrete-time Hybrid Automata Learning (DHAL), een raamwerk dat gebruikmaakt van on-policy Reinforcement Learning om moduswisselingen te identificeren en uit te voeren zonder trajectsegmentatie of het leren van gebeurtenisfuncties. Hybride dynamische systemen, die continue stroming en discrete moduswisselingen omvatten, kunnen robotica-taken zoals de voortbeweging van potenrobots modelleren. Modelgebaseerde methoden zijn meestal afhankelijk van vooraf gedefinieerde gangen, terwijl modelvrije benaderingen expliciete kennis van moduswisselingen missen. Huidige methoden identificeren discrete modi via segmentatie voordat ze continue stroming regresseren, maar het leren van hoogdimensionale complexe rigide lichaamsdynamica zonder trajectlabels of segmentatie is een uitdagend open probleem. Onze aanpak integreert een beta-beleidsverdeling en een multi-critic-architectuur om contactgestuurde bewegingen te modelleren, geïllustreerd door een uitdagende taak met een viervoetige robot op een skateboard. We valideren onze methode door simulaties en tests in de echte wereld, waarbij we robuuste prestaties aantonen in hybride dynamische systemen.
English
This paper introduces Discrete-time Hybrid Automata Learning (DHAL), a
framework using on-policy Reinforcement Learning to identify and execute
mode-switching without trajectory segmentation or event function learning.
Hybrid dynamical systems, which include continuous flow and discrete mode
switching, can model robotics tasks like legged robot locomotion. Model-based
methods usually depend on predefined gaits, while model-free approaches lack
explicit mode-switching knowledge. Current methods identify discrete modes via
segmentation before regressing continuous flow, but learning high-dimensional
complex rigid body dynamics without trajectory labels or segmentation is a
challenging open problem. Our approach incorporates a beta policy distribution
and a multi-critic architecture to model contact-guided motions, exemplified by
a challenging quadrupedal robot skateboard task. We validate our method through
simulations and real-world tests, demonstrating robust performance in hybrid
dynamical systems.Summary
AI-Generated Summary