Diskrete Hybridautomatensysteme: Laufrobotik trifft auf Skateboarding
Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding
March 3, 2025
Autoren: Hang Liu, Sangli Teng, Ben Liu, Wei Zhang, Maani Ghaffari
cs.AI
Zusammenfassung
Dieses Papier stellt Discrete-time Hybrid Automata Learning (DHAL) vor, ein Framework, das On-Policy Reinforcement Learning nutzt, um Moduswechsel zu identifizieren und auszuführen, ohne dabei auf Trajektoriensegmentierung oder das Lernen von Ereignisfunktionen angewiesen zu sein. Hybride dynamische Systeme, die kontinuierliche Flüsse und diskrete Moduswechsel umfassen, können Robotikaufgaben wie die Fortbewegung von Laufrobotern modellieren. Modellbasierte Methoden sind in der Regel auf vordefinierte Gangarten angewiesen, während modellfreie Ansätze explizites Wissen über Moduswechsel vermissen. Aktuelle Methoden identifizieren diskrete Modi durch Segmentierung, bevor sie den kontinuillichen Fluss regressieren, doch das Lernen hochdimensionaler, komplexer Starrkörperdynamiken ohne Trajektorienlabels oder Segmentierung bleibt eine herausfordernde offene Problemstellung. Unser Ansatz integriert eine Beta-Policy-Verteilung und eine Multi-Critic-Architektur, um kontaktgesteuerte Bewegungen zu modellieren, veranschaulicht durch eine anspruchsvolle Aufgabe mit einem vierbeinigen Roboter auf einem Skateboard. Wir validieren unsere Methode durch Simulationen und Tests in der realen Welt und demonstrieren robuste Leistung in hybriden dynamischen Systemen.
English
This paper introduces Discrete-time Hybrid Automata Learning (DHAL), a
framework using on-policy Reinforcement Learning to identify and execute
mode-switching without trajectory segmentation or event function learning.
Hybrid dynamical systems, which include continuous flow and discrete mode
switching, can model robotics tasks like legged robot locomotion. Model-based
methods usually depend on predefined gaits, while model-free approaches lack
explicit mode-switching knowledge. Current methods identify discrete modes via
segmentation before regressing continuous flow, but learning high-dimensional
complex rigid body dynamics without trajectory labels or segmentation is a
challenging open problem. Our approach incorporates a beta policy distribution
and a multi-critic architecture to model contact-guided motions, exemplified by
a challenging quadrupedal robot skateboard task. We validate our method through
simulations and real-world tests, demonstrating robust performance in hybrid
dynamical systems.Summary
AI-Generated Summary