Aprendizaje de Autómatas Híbridos en Tiempo Discreto: Locomoción con Patas se Encuentra con el Skateboarding

Resumen

Este artículo presenta el Aprendizaje de Autómatas Híbridos en Tiempo Discreto (DHAL), un marco que utiliza Aprendizaje por Refuerzo on-policy para identificar y ejecutar cambios de modo sin segmentación de trayectorias ni aprendizaje de funciones de eventos. Los sistemas dinámicos híbridos, que incluyen flujo continuo y cambios de modo discreto, pueden modelar tareas robóticas como la locomoción de robots con patas. Los métodos basados en modelos suelen depender de patrones de marcha predefinidos, mientras que los enfoques libres de modelo carecen de conocimiento explícito sobre los cambios de modo. Los métodos actuales identifican modos discretos mediante segmentación antes de regresar el flujo continuo, pero aprender dinámicas complejas de cuerpos rígidos en alta dimensión sin etiquetas de trayectoria o segmentación es un problema abierto y desafiante. Nuestro enfoque incorpora una distribución de política beta y una arquitectura multi-crítica para modelar movimientos guiados por contacto, ejemplificados por una tarea desafiante de un robot cuadrúpedo en patineta. Validamos nuestro método mediante simulaciones y pruebas en el mundo real, demostrando un rendimiento robusto en sistemas dinámicos híbridos.

English

This paper introduces Discrete-time Hybrid Automata Learning (DHAL), a framework using on-policy Reinforcement Learning to identify and execute mode-switching without trajectory segmentation or event function learning. Hybrid dynamical systems, which include continuous flow and discrete mode switching, can model robotics tasks like legged robot locomotion. Model-based methods usually depend on predefined gaits, while model-free approaches lack explicit mode-switching knowledge. Current methods identify discrete modes via segmentation before regressing continuous flow, but learning high-dimensional complex rigid body dynamics without trajectory labels or segmentation is a challenging open problem. Our approach incorporates a beta policy distribution and a multi-critic architecture to model contact-guided motions, exemplified by a challenging quadrupedal robot skateboard task. We validate our method through simulations and real-world tests, demonstrating robust performance in hybrid dynamical systems.