ChatPaper.aiChatPaper

H∞ロコモーション制御の学習

Learning H-Infinity Locomotion Control

April 22, 2024
著者: Junfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang
cs.AI

要旨

急峻な環境における安定した移動は四足歩行ロボットにとって必須の能力であり、様々な外部擾乱に抵抗する能力が求められる。しかし、最近の学習ベースのポリシーは、学習されたポリシーの堅牢性を向上させるために基本的なドメインランダム化のみを使用しており、ロボットが十分な擾乱抵抗能力を持つことを保証できない。本論文では、学習プロセスをアクターと新たに導入したディスターバー間の敵対的相互作用としてモデル化し、H_{infty}制約を用いてそれらの最適化を保証することを提案する。割引総報酬を最大化するアクターとは対照的に、ディスターバーは効果的な外力を生成する役割を担い、タスク報酬とそのオラクル(すなわち「コスト」)の誤差を最大化することで最適化される。アクターとディスターバーの共同最適化を安定させるために、我々のH_{infty}制約は、コストと外力の強度の比の上限を規定する。トレーニングフェーズ全体を通じた相互相互作用により、アクターはますます複雑な物理的擾乱をナビゲートする能力を獲得できる。我々は、Unitree Aliengoロボットを用いた四足歩行タスク、およびUnitree A1ロボットを用いたより挑戦的なタスク(四足ロボットが二足ロボットのように後脚のみで移動することを期待される)において、本手法の堅牢性を検証した。シミュレーションによる定量的結果はベースラインに対する改善を示し、本手法と各設計選択の有効性を実証している。一方、実機実験では、階段、高台、斜面、滑りやすい地形など様々な地形上で様々な擾乱が加えられた際に、ポリシーがいかに堅牢であるかを定性的に示している。すべてのコード、チェックポイント、および実世界での展開ガイドが公開される予定である。
English
Stable locomotion in precipitous environments is an essential capability of quadruped robots, demanding the ability to resist various external disturbances. However, recent learning-based policies only use basic domain randomization to improve the robustness of learned policies, which cannot guarantee that the robot has adequate disturbance resistance capabilities. In this paper, we propose to model the learning process as an adversarial interaction between the actor and a newly introduced disturber and ensure their optimization with H_{infty} constraint. In contrast to the actor that maximizes the discounted overall reward, the disturber is responsible for generating effective external forces and is optimized by maximizing the error between the task reward and its oracle, i.e., "cost" in each iteration. To keep joint optimization between the actor and the disturber stable, our H_{infty} constraint mandates the bound of ratio between the cost to the intensity of the external forces. Through reciprocal interaction throughout the training phase, the actor can acquire the capability to navigate increasingly complex physical disturbances. We verify the robustness of our approach on quadrupedal locomotion tasks with Unitree Aliengo robot, and also a more challenging task with Unitree A1 robot, where the quadruped is expected to perform locomotion merely on its hind legs as if it is a bipedal robot. The simulated quantitative results show improvement against baselines, demonstrating the effectiveness of the method and each design choice. On the other hand, real-robot experiments qualitatively exhibit how robust the policy is when interfering with various disturbances on various terrains, including stairs, high platforms, slopes, and slippery terrains. All code, checkpoints, and real-world deployment guidance will be made public.

Summary

AI-Generated Summary

PDF71December 15, 2024