ChatPaper.aiChatPaper

Aprendizado de Autômatos Híbridos em Tempo Discreto: Locomoção Bípede Encontra o Skate

Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding

March 3, 2025
Autores: Hang Liu, Sangli Teng, Ben Liu, Wei Zhang, Maani Ghaffari
cs.AI

Resumo

Este artigo apresenta o Discrete-time Hybrid Automata Learning (DHAL), um framework que utiliza Aprendizado por Reforço on-policy para identificar e executar mudanças de modo sem segmentação de trajetória ou aprendizado de função de evento. Sistemas dinâmicos híbridos, que incluem fluxo contínuo e mudança discreta de modo, podem modelar tarefas robóticas como a locomoção de robôs com pernas. Métodos baseados em modelo geralmente dependem de padrões de marcha predefinidos, enquanto abordagens livres de modelo carecem de conhecimento explícito sobre mudanças de modo. Métodos atuais identificam modos discretos por meio de segmentação antes de regredir o fluxo contínuo, mas aprender dinâmicas complexas de corpo rígido em alta dimensão sem rótulos de trajetória ou segmentação é um problema aberto desafiador. Nossa abordagem incorpora uma distribuição de política beta e uma arquitetura multi-crítica para modelar movimentos guiados por contato, exemplificados por uma tarefa desafiadora de um robô quadrúpede em um skate. Validamos nosso método por meio de simulações e testes no mundo real, demonstrando desempenho robusto em sistemas dinâmicos híbridos.
English
This paper introduces Discrete-time Hybrid Automata Learning (DHAL), a framework using on-policy Reinforcement Learning to identify and execute mode-switching without trajectory segmentation or event function learning. Hybrid dynamical systems, which include continuous flow and discrete mode switching, can model robotics tasks like legged robot locomotion. Model-based methods usually depend on predefined gaits, while model-free approaches lack explicit mode-switching knowledge. Current methods identify discrete modes via segmentation before regressing continuous flow, but learning high-dimensional complex rigid body dynamics without trajectory labels or segmentation is a challenging open problem. Our approach incorporates a beta policy distribution and a multi-critic architecture to model contact-guided motions, exemplified by a challenging quadrupedal robot skateboard task. We validate our method through simulations and real-world tests, demonstrating robust performance in hybrid dynamical systems.

Summary

AI-Generated Summary

PDF22March 5, 2025