Aprendizaje de Autómatas Híbridos en Tiempo Discreto: Locomoción con Patas se Encuentra con el Skateboarding
Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding
March 3, 2025
Autores: Hang Liu, Sangli Teng, Ben Liu, Wei Zhang, Maani Ghaffari
cs.AI
Resumen
Este artículo presenta el Aprendizaje de Autómatas Híbridos en Tiempo Discreto (DHAL), un marco que utiliza Aprendizaje por Refuerzo on-policy para identificar y ejecutar cambios de modo sin segmentación de trayectorias ni aprendizaje de funciones de eventos. Los sistemas dinámicos híbridos, que incluyen flujo continuo y cambios de modo discreto, pueden modelar tareas robóticas como la locomoción de robots con patas. Los métodos basados en modelos suelen depender de patrones de marcha predefinidos, mientras que los enfoques libres de modelo carecen de conocimiento explícito sobre los cambios de modo. Los métodos actuales identifican modos discretos mediante segmentación antes de regresar el flujo continuo, pero aprender dinámicas complejas de cuerpos rígidos en alta dimensión sin etiquetas de trayectoria o segmentación es un problema abierto y desafiante. Nuestro enfoque incorpora una distribución de política beta y una arquitectura multi-crítica para modelar movimientos guiados por contacto, ejemplificados por una tarea desafiante de un robot cuadrúpedo en patineta. Validamos nuestro método mediante simulaciones y pruebas en el mundo real, demostrando un rendimiento robusto en sistemas dinámicos híbridos.
English
This paper introduces Discrete-time Hybrid Automata Learning (DHAL), a
framework using on-policy Reinforcement Learning to identify and execute
mode-switching without trajectory segmentation or event function learning.
Hybrid dynamical systems, which include continuous flow and discrete mode
switching, can model robotics tasks like legged robot locomotion. Model-based
methods usually depend on predefined gaits, while model-free approaches lack
explicit mode-switching knowledge. Current methods identify discrete modes via
segmentation before regressing continuous flow, but learning high-dimensional
complex rigid body dynamics without trajectory labels or segmentation is a
challenging open problem. Our approach incorporates a beta policy distribution
and a multi-critic architecture to model contact-guided motions, exemplified by
a challenging quadrupedal robot skateboard task. We validate our method through
simulations and real-world tests, demonstrating robust performance in hybrid
dynamical systems.Summary
AI-Generated Summary