Aprendizado de Autômatos Híbridos em Tempo Discreto: Locomoção Bípede Encontra o Skate
Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding
March 3, 2025
Autores: Hang Liu, Sangli Teng, Ben Liu, Wei Zhang, Maani Ghaffari
cs.AI
Resumo
Este artigo apresenta o Discrete-time Hybrid Automata Learning (DHAL), um
framework que utiliza Aprendizado por Reforço on-policy para identificar e executar
mudanças de modo sem segmentação de trajetória ou aprendizado de função de evento.
Sistemas dinâmicos híbridos, que incluem fluxo contínuo e mudança discreta de modo,
podem modelar tarefas robóticas como a locomoção de robôs com pernas. Métodos baseados
em modelo geralmente dependem de padrões de marcha predefinidos, enquanto abordagens
livres de modelo carecem de conhecimento explícito sobre mudanças de modo. Métodos
atuais identificam modos discretos por meio de segmentação antes de regredir o fluxo
contínuo, mas aprender dinâmicas complexas de corpo rígido em alta dimensão sem
rótulos de trajetória ou segmentação é um problema aberto desafiador. Nossa abordagem
incorpora uma distribuição de política beta e uma arquitetura multi-crítica para
modelar movimentos guiados por contato, exemplificados por uma tarefa desafiadora de
um robô quadrúpede em um skate. Validamos nosso método por meio de simulações e
testes no mundo real, demonstrando desempenho robusto em sistemas dinâmicos híbridos.
English
This paper introduces Discrete-time Hybrid Automata Learning (DHAL), a
framework using on-policy Reinforcement Learning to identify and execute
mode-switching without trajectory segmentation or event function learning.
Hybrid dynamical systems, which include continuous flow and discrete mode
switching, can model robotics tasks like legged robot locomotion. Model-based
methods usually depend on predefined gaits, while model-free approaches lack
explicit mode-switching knowledge. Current methods identify discrete modes via
segmentation before regressing continuous flow, but learning high-dimensional
complex rigid body dynamics without trajectory labels or segmentation is a
challenging open problem. Our approach incorporates a beta policy distribution
and a multi-critic architecture to model contact-guided motions, exemplified by
a challenging quadrupedal robot skateboard task. We validate our method through
simulations and real-world tests, demonstrating robust performance in hybrid
dynamical systems.Summary
AI-Generated Summary