Обучение управлению локомоцией методом H-бесконечность.
Learning H-Infinity Locomotion Control
April 22, 2024
Авторы: Junfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang
cs.AI
Аннотация
Стабильное передвижение в крутых средах является важной способностью четырехногих роботов, требующей способности сопротивляться различным внешним воздействиям. Однако недавние политики, основанные на обучении, используют только базовую доменную рандомизацию для улучшения устойчивости выученных политик, что не может гарантировать, что робот обладает достаточными способностями к сопротивлению воздействиям. В данной статье мы предлагаем моделировать процесс обучения как адверсарное взаимодействие между актером и вновь введенным нарушителем и обеспечивать их оптимизацию с ограничением H_{infty}. В отличие от актера, который максимизирует дисконтированное общее вознаграждение, нарушитель отвечает за генерацию эффективных внешних сил и оптимизируется путем максимизации ошибки между заданием вознаграждения и его оракулом, т.е. "стоимостью" на каждой итерации. Для поддержания совместной оптимизации между актером и нарушителем стабильной, наше ограничение H_{infty} предписывает ограничение соотношения между стоимостью и интенсивностью внешних сил. Через взаимодействие на протяжении фазы обучения актер может приобрести способность справляться с все более сложными физическими воздействиями. Мы проверяем устойчивость нашего подхода на задачах четырехногого передвижения с роботом Unitree Aliengo, а также на более сложной задаче с роботом Unitree A1, где от четырехногого робота ожидается выполнение передвижения исключительно на задних ногах, как если бы он был двуногим роботом. Симулированные количественные результаты показывают улучшение по сравнению с базовыми показателями, демонстрируя эффективность метода и каждого выбора дизайна. С другой стороны, реальные эксперименты с роботом качественно показывают, насколько устойчива политика при воздействии различных воздействий на различных участках, включая лестницы, высокие платформы, склоны и скользкие поверхности. Весь код, контрольные точки и руководство по развертыванию в реальном мире будут опубликованы.
English
Stable locomotion in precipitous environments is an essential capability of
quadruped robots, demanding the ability to resist various external
disturbances. However, recent learning-based policies only use basic domain
randomization to improve the robustness of learned policies, which cannot
guarantee that the robot has adequate disturbance resistance capabilities. In
this paper, we propose to model the learning process as an adversarial
interaction between the actor and a newly introduced disturber and ensure their
optimization with H_{infty} constraint. In contrast to the actor that
maximizes the discounted overall reward, the disturber is responsible for
generating effective external forces and is optimized by maximizing the error
between the task reward and its oracle, i.e., "cost" in each iteration. To keep
joint optimization between the actor and the disturber stable, our H_{infty}
constraint mandates the bound of ratio between the cost to the intensity of the
external forces. Through reciprocal interaction throughout the training phase,
the actor can acquire the capability to navigate increasingly complex physical
disturbances. We verify the robustness of our approach on quadrupedal
locomotion tasks with Unitree Aliengo robot, and also a more challenging task
with Unitree A1 robot, where the quadruped is expected to perform locomotion
merely on its hind legs as if it is a bipedal robot. The simulated quantitative
results show improvement against baselines, demonstrating the effectiveness of
the method and each design choice. On the other hand, real-robot experiments
qualitatively exhibit how robust the policy is when interfering with various
disturbances on various terrains, including stairs, high platforms, slopes, and
slippery terrains. All code, checkpoints, and real-world deployment guidance
will be made public.Summary
AI-Generated Summary