Ágil, Mas Seguro: Aprendizado de Locomoção Bípede de Alta Velocidade Livre de Colisões

Resumo

Robôs com pernas que navegam em ambientes desordenados devem ser simultaneamente ágeis para execução eficiente de tarefas e seguros para evitar colisões com obstáculos ou humanos. Estudos existentes desenvolvem controladores conservadores (< 1,0 m/s) para garantir segurança ou focam em agilidade sem considerar colisões potencialmente fatais. Este artigo apresenta o Agile But Safe (ABS), um framework de controle baseado em aprendizado que permite locomoção ágil e livre de colisões para robôs quadrúpedes. O ABS envolve uma política ágil para executar habilidades motoras ágeis em meio a obstáculos e uma política de recuperação para prevenir falhas, colaborando para alcançar navegação em alta velocidade e livre de colisões. A troca de políticas no ABS é governada por uma rede de valor de alcance-evitamento aprendida com base em teoria de controle, que também orienta a política de recuperação como uma função objetivo, protegendo o robô em um ciclo fechado. O processo de treinamento envolve o aprendizado da política ágil, da rede de valor de alcance-evitamento, da política de recuperação e de uma rede de representação de exterocepção, tudo em simulação. Esses módulos treinados podem ser diretamente implantados no mundo real com sensoriamento e computação embarcados, resultando em navegação em alta velocidade e livre de colisões em espaços confinados, tanto internos quanto externos, com obstáculos estáticos e dinâmicos.

English

Legged robots navigating cluttered environments must be jointly agile for efficient task execution and safe to avoid collisions with obstacles or humans. Existing studies either develop conservative controllers (< 1.0 m/s) to ensure safety, or focus on agility without considering potentially fatal collisions. This paper introduces Agile But Safe (ABS), a learning-based control framework that enables agile and collision-free locomotion for quadrupedal robots. ABS involves an agile policy to execute agile motor skills amidst obstacles and a recovery policy to prevent failures, collaboratively achieving high-speed and collision-free navigation. The policy switch in ABS is governed by a learned control-theoretic reach-avoid value network, which also guides the recovery policy as an objective function, thereby safeguarding the robot in a closed loop. The training process involves the learning of the agile policy, the reach-avoid value network, the recovery policy, and an exteroception representation network, all in simulation. These trained modules can be directly deployed in the real world with onboard sensing and computation, leading to high-speed and collision-free navigation in confined indoor and outdoor spaces with both static and dynamic obstacles.

Ágil, Mas Seguro: Aprendizado de Locomoção Bípede de Alta Velocidade Livre de Colisões

Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

Resumo

Support