H-인피니티 운동 제어 학습
Learning H-Infinity Locomotion Control
April 22, 2024
저자: Junfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang
cs.AI
초록
가파른 환경에서의 안정적인 보행은 사족 보행 로봇의 필수적인 능력으로, 다양한 외부 방해에 저항할 수 있는 능력을 요구합니다. 그러나 최근의 학습 기반 정책들은 학습된 정책의 견고성을 향상시키기 위해 기본적인 도메인 랜덤화만을 사용하며, 이는 로봇이 충분한 방해 저항 능력을 갖추도록 보장할 수 없습니다. 본 논문에서는 학습 과정을 행위자와 새로 도입된 방해자 간의 적대적 상호작용으로 모델링하고, H_{infty} 제약을 통해 이들의 최적화를 보장하는 방법을 제안합니다. 할인된 전체 보상을 최대화하는 행위자와 달리, 방해자는 효과적인 외부 힘을 생성하고, 각 반복에서 작업 보상과 그 오라클(즉, "비용") 간의 오차를 최대화함으로써 최적화됩니다. 행위자와 방해자 간의 공동 최적화를 안정적으로 유지하기 위해, 우리의 H_{infty} 제약은 외부 힘의 강도에 대한 비용의 비율의 한계를 규정합니다. 훈련 단계 전반에 걸친 상호작용을 통해, 행위자는 점점 더 복잡한 물리적 방해를 극복할 수 있는 능력을 습득할 수 있습니다. 우리는 Unitree Aliengo 로봇을 사용한 사족 보행 작업과, Unitree A1 로봇을 사용한 더 어려운 작업(사족 로봇이 이족 보행 로봇처럼 뒷다리만으로 보행을 수행해야 하는 작업)에서 우리 접근법의 견고성을 검증합니다. 시뮬레이션된 정량적 결과는 기준선 대비 개선을 보여주며, 이 방법과 각 설계 선택의 효과성을 입증합니다. 한편, 실제 로봇 실험은 계단, 높은 플랫폼, 경사면, 미끄러운 지형 등 다양한 지형에서 다양한 방해를 받을 때 정책이 얼마나 견고한지 질적으로 보여줍니다. 모든 코드, 체크포인트, 실제 배포 가이드가 공개될 예정입니다.
English
Stable locomotion in precipitous environments is an essential capability of
quadruped robots, demanding the ability to resist various external
disturbances. However, recent learning-based policies only use basic domain
randomization to improve the robustness of learned policies, which cannot
guarantee that the robot has adequate disturbance resistance capabilities. In
this paper, we propose to model the learning process as an adversarial
interaction between the actor and a newly introduced disturber and ensure their
optimization with H_{infty} constraint. In contrast to the actor that
maximizes the discounted overall reward, the disturber is responsible for
generating effective external forces and is optimized by maximizing the error
between the task reward and its oracle, i.e., "cost" in each iteration. To keep
joint optimization between the actor and the disturber stable, our H_{infty}
constraint mandates the bound of ratio between the cost to the intensity of the
external forces. Through reciprocal interaction throughout the training phase,
the actor can acquire the capability to navigate increasingly complex physical
disturbances. We verify the robustness of our approach on quadrupedal
locomotion tasks with Unitree Aliengo robot, and also a more challenging task
with Unitree A1 robot, where the quadruped is expected to perform locomotion
merely on its hind legs as if it is a bipedal robot. The simulated quantitative
results show improvement against baselines, demonstrating the effectiveness of
the method and each design choice. On the other hand, real-robot experiments
qualitatively exhibit how robust the policy is when interfering with various
disturbances on various terrains, including stairs, high platforms, slopes, and
slippery terrains. All code, checkpoints, and real-world deployment guidance
will be made public.Summary
AI-Generated Summary