Wendbaar maar Veilig: Leren van Botsingsvrije Hoogwaardige Beenlocomotie
Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion
January 31, 2024
Auteurs: Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi
cs.AI
Samenvatting
Viervoetige robots die zich voortbewegen in rommelige omgevingen moeten zowel wendbaar zijn voor efficiënte taakuitvoering als veilig om botsingen met obstakels of mensen te voorkomen. Bestaande studies ontwikkelen ofwel conservatieve controllers (< 1,0 m/s) om veiligheid te garanderen, of richten zich op wendbaarheid zonder rekening te houden met potentieel fatale botsingen. Dit artikel introduceert Agile But Safe (ABS), een op leren gebaseerd controleframework dat wendbare en botsingsvrije voortbeweging mogelijk maakt voor viervoetige robots. ABS omvat een wendbaar beleid om wendbare motorische vaardigheden uit te voeren tussen obstakels en een herstelbeleid om fouten te voorkomen, wat gezamenlijk resulteert in snelle en botsingsvrije navigatie. De beleidswisseling in ABS wordt gereguleerd door een geleerd controle-theoretisch reach-avoid waardenetwerk, dat ook het herstelbeleid als doel functie begeleidt, waardoor de robot in een gesloten lijn wordt beschermd. Het trainingsproces omvat het leren van het wendbare beleid, het reach-avoid waardenetwerk, het herstelbeleid en een exteroceptie representatienetwerk, allemaal in simulatie. Deze getrainde modules kunnen direct worden ingezet in de echte wereld met onboard sensoren en berekeningen, wat leidt tot snelle en botsingsvrije navigatie in beperkte binnen- en buitenruimtes met zowel statische als dynamische obstakels.
English
Legged robots navigating cluttered environments must be jointly agile for
efficient task execution and safe to avoid collisions with obstacles or humans.
Existing studies either develop conservative controllers (< 1.0 m/s) to ensure
safety, or focus on agility without considering potentially fatal collisions.
This paper introduces Agile But Safe (ABS), a learning-based control framework
that enables agile and collision-free locomotion for quadrupedal robots. ABS
involves an agile policy to execute agile motor skills amidst obstacles and a
recovery policy to prevent failures, collaboratively achieving high-speed and
collision-free navigation. The policy switch in ABS is governed by a learned
control-theoretic reach-avoid value network, which also guides the recovery
policy as an objective function, thereby safeguarding the robot in a closed
loop. The training process involves the learning of the agile policy, the
reach-avoid value network, the recovery policy, and an exteroception
representation network, all in simulation. These trained modules can be
directly deployed in the real world with onboard sensing and computation,
leading to high-speed and collision-free navigation in confined indoor and
outdoor spaces with both static and dynamic obstacles.